>新闻资讯
「芯」对话 | 奕行智能刘珲:通用DSA架构在自动驾驶应用的探索与实践
浏览量:291     发布日期:2023.12.01

       近日,奕行智能CEO刘珲先生受邀参加了由宾夕法尼亚大学组织举办的“前沿技术峰会”,并以《通用DSA架构在自动驾驶应用的探索与实践》为题发表了深刻的见解,就自动驾驶的发展趋势、算法部署带来的主要挑战及奕行智能的应对策略等话题分享了精彩的观点。



        刘珲指出,从当前部分功能块驱动的辅助驾驶阶段,到未来两年大概率落地的开放道路的单车智能,再到更远未来可预见的超级智能系统,智驾场景在经历一次次的重构,而在算法层面上,可以看到由Transformer作为基础框架的BEV技术现在正被各大车厂作为重大落地的算法模型。然而,基于Transfomer的BEV大模型作为新一代自动驾驶感知算法在传统AI加速芯片部署上的难度不容小觑。一方面Transformer的访存要求相对传统CNN算法会高出很多,另一方面由于Softmax和Layernorm等非线性操作的精度使得模型对浮点计算资源追求更高精度的需求。此外,还有编译器等软件工具链对BEV类型网络中的一些新型算子需要高效支持的挑战。而传统的AI加速芯片架构更多是基于CNN算法特点定制,对Transformer类型的网络支持较差,通用性明显不足,使得对于BEV这种复杂的大模型部署落地非常困难。


        而车是一个端侧产品,是有严格的成本和功耗约束的,不能粗暴的把云端的大算力搬移到车端产品上。因此在有算力红线的情况下,一方面如何提高NPU的硬件效率显得尤为重要,这个需要NPU硬件与编译器协同设计,通过更好的优化和部署计算任务来去更高效地填满硬件,提升硬件的利用率。另一方面在算力有约束的情况下,让每一TOP/FLOP的算力被用户更方便地使用起来也很重要,所以这就需要提升NPU的可编程性。



        随着自动驾驶场景演进的三个阶段,对AI计算架构的需求也是在不断的变化。早期ADAS的应用场景简单,算法模型相对较单一,所以与算法绑定高度定制的AI核被市场接受成为快速解决应用场景有与无的问题。第二个阶段(也就是我们目前所在的阶段)是NOA应用启动的时代,模型种类及数量的增多,泛化要求变高,使得通用型较强的GP-GPU在率先布局NOA应用的高端车上成为主要的解决方案。但随着时间推移,NOA应用普及及车厂对降本增效的诉求愈发强烈,因此,第三阶段在满足模型差异化、泛化要求和成本要求兼顾的情况下,能够兼顾通用性和成本的GP-DSA架构将会成为产业主流。


        这三个阶段跟特斯拉整个AI计算架构的演进发展路线基本类似,如何去打造一个高效而通用的DSA计算架构,RISC-V可能是一条不错的路径。从产业界来看,许多国外头部厂商对AI计算架构的创新也掀起了浪潮,其中包括Google、Meta、Tesla,还有硅仙人Jim Keller所在的Tenstorrent,他们有个共同点,就是都不约而同采用基于RISC-V指令集来构建整个AI计算体系。

        这背后的原因一是因为RISC-V架构的开放性,不管是自研RISC-V核还是找合作伙伴定制,从指令集角度和硬件微架构角度都是非常灵活和开放。二是指令可扩展,基础指令40多条,但可扩展性很强,而且可以定制指令,特别是21年11月定稿的向量扩展RVV,为RISC-V在机器学习领域提供了很好的路径。

         传统的AI加速器往往聚焦专用,忽视通用,把RISC-V和DSA结合起来可以结合解决通用性和专用性的矛盾问题,而且相对自己定制一套封闭的指令集来讲,RISC的生态会更Robust,从软件工具链角度来讲,也可以很好的利用RISC-V的这个优势,减少软件工具链的开发周期,成本以及兼容性的问题。考虑到这些优点,奕行智能在自主的AI计算架构上没有像传统的DSA采用封闭的完全自定义的指令集,而是基于RISC-V指令集和RVV扩展,同时也因为RISC-V的超标量、乱序执行的特点大大地提升了指令执行的并行性。同Google、Meta、Tesla、Tenstorrent这些公司类似,EVAS在国内率先把RISC-V用在中大算力这个领域。另外通过在内核的指令和数据并行上做了更加强化的高性能设计,使得EVAS的整个计算架构的性能能达到行业非常领先的水平。

        基于软硬结合的前瞻理念,奕行智能也看到AI编译技术对大模型在端侧落地这件事上的重要性。前段时间陈天奇博士主导的基于Apache-TVM的MLC-LLM的项目展示了多层次编译器怎么帮助GPT在IPHONE上部署,同时可以看到国内也已经有就AI编译器项目的创业来解决大模型在非英伟达芯片的部署难题,这些其实都在说明AI编译技术是AI应用的关键一环。

       对于奕行智能AI编译技术的特点,刘珲通过一个著名模型——屋顶线模型(Roofline model),讲述利用硬件微架构与软件编译器协同设计,如何作用于把应用程序从Memory Bound转变成Computer Bound,以此来提高计算效率。

       相较之下,EVAS的多层次AI编译器相较于传统AI编程范式而言更显优势:

     (1)不依赖手工开发算子库,向量张量算子自动生成。

     (2)打破传统算子边界与抽象,通过多层次编译器完成从图到硬件二进制代码的一键部署。

     (3)多层次抽象提供更灵活的子图与算子融合方案,方便模型性能极致调优。

       通过总结介绍EVAS的GP-DSA架构在访存机制、计算并发机制、指令颗粒度、软件编程范式和编译器技术等不同纬度与GPU架构及传统AI DSA架构的不同,刘珲表示,奕行智能会持续不断在AI计算架构这块领域上进行更多的创新与探索,去帮助更多合作伙伴解决在当前自动驾驶在AI模型的推理性能、能效、模型泛化的支持、AI编程的易用性、硬件操作的自由度以及成本上等多个维度的核心痛点。