本身是支持将模型序列化成格式,进行++部署和推理加速,但框架是基于进行二次开发,无法序列化成格式进行++部署,只能通过部署的方式进行推理,这就需要在现有++推理框架的基础上进行底层能力升级,支持部署模式的,、模型管理模式、进程部署方式等方面都是不小的挑战
单机显存瓶颈:由于全局 牙买加 WhatsApp 号码列表 解释器锁的限制,导致单进程模式无法并行处理请求,一方面导致多核无法被充分利用,资源被浪费,另一方面请求被串行积压,导致耗时上涨,这对于在线推理服务是不能接受的因此,为了避免锁的影响,需要通过部署多进程的方式进行模型推理,支持在线请求的并发处理但多进程部署方式,需要每个进程都加载一份模型数据,这无疑会受到单机显存的约束,模型越大,单机可部署的进程数就越少,进而限制处理请求的并发度,影响在线推理性能
因此,如何降低单进程可加载的模型数据量,提高并行部署的进程数量,是我们需要思考的问题和挑战图推理框架建设针对上面梳理的问题和挑战,并结合业务现状和系统现状,我们进行了在线图推理框架的建设,系统架构如下图所示:从上图可以看出,在线图推理框架由个主进程+个子进程组成,主进程负责WFw工作流的调度,包括在线请求接收、解析、特征图节点数据准备以及与子进程间的数据交互,最终返回向量结果;子进程负责以的方式进行模型的加载和推理,并将推理结果返回给主进程
|