7月18日,在第五届RISC-V中国峰会的人工智能分论坛上,赛昉科技首席架构师崔进带来主题演讲《乱序RVV,动态调度提升AI计算任务效率》。

崔进.png

随着人工智能的发展,目前行业也出现两个比较明显的发展方向,首先是大模型从专用模型向通用大模型演变,其二是将云端AI向边缘侧/端侧AI变化。

崔进指出,这个过程对计算架构提出三点挑战:

其一是模型多样性,从 CNN、Transformer 到新兴的多模态模型,计算模式差异显著。其二是部署碎片化,不熟的设备从超低功耗的loT到高性能数据中心,硬件的性能和需求千差万别。其三是生态封闭性,传统AI加速方案依赖专有架构,导致开发成本高迁移困难。崔进表示,NPU都会提供一个单独的工具链,但不同产品厂家之间的工具链几乎很难来互相使用的,甚至一些工具链为了适配最新的模型,他们需要更多的人力做适配,基本上推出的时间都是以为单位或者以半年为单位才能适配新的模型。

RVV优势.png

那么RISC-V或说RVV架构在AI计算中有什么优势?

作为首个真正开放的向量指令集标准,RV 具有两大核心优势,其一是参数化设计,向量长度(VLEN)、寄存器组大小等均可配置,使亲能够高效支持不同的规模的AI计算;其二是指令集间性,可以在不同的硬件平台上运行同样的软件,极大的减少了软件移植等开销。

值得一提的是,在在RISC-V生态中,不仅有 顺序RVV架构(In-Order RVV)之外,还有乱序RVV架构(Out-of-Order RVV) ,他们是针对向量扩展(Vector Extension)的两种不同执行策略,其差异对AI/高性能计算场景的性能和能效有显著影响。

优势.png

乱序RVV也同样适用于AI计算。崔进表示,很多芯片企业为了考虑到硬件实现的可行性和设计的复杂度,都考虑做顺序RVV,即使在一个乱序的核里面也会在RVV部分采用顺序的执行方式。另外,通过充分利用乱序Scalar部分的V架构,可以让乱序也实现顺序执行的。

气泡.png

目前来看,乱序RVV比较适用于以下场景,首先是高指令级并行场景,如高指令级并行场景,其次是内存访问密集型任务,如参数服务器架构的分布式训练,,以及动态控制流场景,如强化学习决策、自适应推理。乱序RVV在AI计算中有以下几个比较明显的优势,比如指令集并行、提升内存访问效率、实现控制流和资源的调度优化。根据崔进的分享,乱序RVV在特定任务或场景下的表现更优,如相同的VLEN和DLEN长度下,乱序RVV对比顺序RVV ,在NCNN、OpenCV、OpenBLAS等典型任务性能提升 6.34%-30.19%。

核特点.png

此外,崔进也展示了赛昉科技做的Dubhe-83核的实例介绍,该核的亮点在于Vector宏指令拆分为DLEN长度的微指令,任何微指令的执行均为乱序;VPU和FPU共享执行单元和物理寄存器,可以达到更好的能效比;Scalar和Vector共享LSU。

来源: 芯师爷 作者: