CWCISA行业研读连载 | 人工智能芯片的架构设计与储存技术

栏目:收藏 来源:效能日报 时间:2019-03-19




本文是联盟长期连载的《2018人工智能芯片技术白皮书》研读系列第三篇。


?AI 芯片架构设计趋势


云端训练和推断:大存储、高性能、可伸缩

从NVIDIA 和Goolge 的设计实践我们可以看出云端AI 芯片在架构层面,技术发展的几个特点和趋势:

1. 存储的需求(容量和访问速度)越来越高一方面由于处理大量数据的要求,需要更大容量的存储器。另一方面,限制运算能力提高的主要因素是访问存储器的速度,因此,未来云端AI 芯片会有越来越多的片上存储器(比如Graphcore 公司就在芯片上实现的300MB 的SRAM)和能够提供高带宽的片外存储器(HBM2 和其它新型封装形式)。

2. 处理能力推向每秒千万亿次(PetaFLOPS),并支持灵活伸缩和部署。对云端AI 芯片来说,单芯片的处理能力可能会达到PetaFLOPS 的水平。实现这一目标除了要依靠CMOS 工艺的进步,也需要靠架构的创新。比如在Google 第一代TPU 中,使用了脉动阵列(Systolic Array)架构,而在NVIDIA 的V100GPU 中,专门增加了张量核来处理矩阵运算。为了将GPU 扩展为更大的系统,NVIDIA 专门开发了的NVSwitch 交换芯片,可以为多个GPU 提供高带宽互连。在最新发布的DGX-2 系统中,16 颗V100GPU 连接在一起,提供2PFPLOS 的处理能力,可以实现大规模神经网络的并行训练。除此之外,我们还看到一些更为“极端”的架构设计。比如晶圆级集成技术,即用整个晶圆制成一个“超级芯片”;再比如在运算单元中使用无时钟电路实现更高的速度和更低的功耗。此外,还有一条路径是通过多芯片、多板卡互连来实现更强的运算和存储能力,而不是单纯追求单芯片的处理能力。未来应该可以看到越来越多的产品,以系统(或者云服务)而非单芯片的形式,提供可伸缩和配置的处理能力。这种强大处理能力的灵活性还体现在训练和推断任务的部署上,比如在白天将更多的硬件用于推断任务,满足应用需求,而晚上则把更多的资源分配给训练任务。

3. 专门针对推断需求的FPGA 和ASIC。随着AI 应用的爆发,对推断计算的需求会越来越多,一个训练好的算法会不断复用。推断和训练相比有其特殊性,更强调吞吐率、能效和实时性,未来在云端很可能会有专门针对推断的ASIC 芯片(Google 的第一代TPU 也是很好的例子),提供更好的能耗效率并实现更低的延时。另外,FPGA 在这个方向也有独特优势,从微软提出的BrainWave 架构就可以看出端倪。


边缘设备:把效率推向极致

相对云端应用,边缘设备的应用需求和场景约束要复杂很多,针对不同的情况可能需要专门的架构设计。抛开需求的复杂性,目前的边缘设备主要是执行“推断”。在这个目标下,AI 芯片最重要的就是提高“推断”效率。目前,衡量AI 芯片实现效率的一个重要指标是能耗效率——TOPs/W,这也成为很多技术创新竞争的焦点。


软件定义芯片

可重构计算技术允许硬件架构和功能随软件变化而变化,具备处理器的灵活性和专用集成电路的高性能和低功耗,是实现“软件定义芯片”的核心,被公认为是突破性的下一代集成电路技术。清华大学微电子所设计的AI 芯片(代号Thinker[Shouyi17, Shouyi18]),采用可重构计算架构,能够支持卷积神经网络、全连接神经网络和递归神经网络等多种AI 算法。Thinker 芯片通过三个层面的可重构计算技术,来实现“软件定义芯片”,最高能量效率达到了5.09TOPS/W :


1. 计算阵列重构:Thinker 芯片的计算阵列由多个并行计算单元互连而成。每个计算单元可以根据算法所需要的基本算子不同而进行功能重构。此外,在复杂AI 任务中,多种AI 算法的计算资源需求不同,因此Thinker 芯片支持计算阵列的按需资源划分以提高资源利用率和能量效率。


2. 存储带宽重构:Thinker 芯片的片上存储带宽能够根据AI 算法的不同而进行重构。存储内的数据分布会随着带宽的改变而调整,以提高数据复用性和计算并行度,提高了计算吞吐和能量效率。


3. 数据位宽重构:16 比特数据位宽足以满足绝大多数应用的精度需求,对于一些精度要求不高的场景,甚至8 比特数据位宽就已经足够。为了满足AI 算法多样的精度需求,Thinker 芯片的计算单元支持高低(16/8比特)两种数据位宽重构。高比特模式下计算精度提升,低比特模式下计算单元吞吐量提升进而提高性能。可重构计算技术作为实现“软件定义芯片”的重要技术,非常适合应用于AI 芯片设计当中。 采用可重构计算技术之后,软件定义的层面不仅仅局限于功能这一层面。算法的计算精度、性能和能效等都可以纳入软件定义的范畴。

可重构计算技术借助自身实时动态配置的特点,实现软硬件协同设计,为AI 芯片带来了极高的灵活度和适用范围。



?AI 芯片中的储存技术


AI 友好型存储器


考虑到并行访问大量数据的需求,人工智能和大数据处理需要高带宽、大存储容量的内存。图表6-1显示了当前主要存储技术中带宽和容量的快速增长。考虑到在不断尺寸缩放的情况下,传统NVM 所面临的困难越来越多,新兴的NVM 由于其相对较大的带宽和迅速增长的容量,可以在AI 芯片的存储技术中发挥至关重要的作用。


片外存储器

DRAM 和NAND 闪存由于高密度的单元结构特点,通常被用作具有相对较大容量的片外存储器。3D集成已经被证明是增加商业存储器的带宽和容量的有效策略,其可以通过使用从底部到顶部的硅通孔(TSV)技术,堆叠多个管芯或者单片制造的方法来完成。DRAM 的代表作品包括HBM [Lee14] 和混合存储器立方体(HMC)[Jeddeloh12]。图表6-2 显示了NVIDIA 的GPU 产品与HBM 集成的AI 应用程序[NVIDIA]。对于NAND 闪存,3D NAND 正在深入研究。最近,三星已经开发出96 层3D NAND。


片上(嵌入型)存储器

由于能够连接逻辑和存储器电路,并且与逻辑器件完全兼容,SRAM 是不可或缺的片上存储器,其性能和密度不断受益于CMOS 的尺寸缩放。 然而,其易失性使得芯片上或芯片外的非易失性存储器成为必须。虽然目前NOR 闪存被广泛用作片上NVM,但由于其存取时间较短且写入能量较大,限制了系统的性能。

新兴的存储器

新兴的NVM 技术可以显着改善用于商业和嵌入式应用的AI 友好型存储器。对于商业存储器,新兴的NVM 因为速度较为匹配,可以用作存储级内(SCM)来弥补工作内存和存储之间的访问时间差别。因为可以高密度集成,相变存储器(PCM)和阻变存储器(ReRAM)是SCM 的主要候选者。此外,自旋力矩传输存储器(STT-MRAM)由于其高耐久性和高速度被认为是DRAM 的替代品。对于嵌入式应用,基于新兴NVM 的片上存储器也可以提供比传统NVM 更好的存取速度和低功耗,可在非常有限的功率下工作,这对于物联网边缘设备上的AI 芯片特别具有吸引力。



文章出处摘自《清华大学:2018人工智能芯片技术白皮书



《2018人工智能芯片技术白皮书》研读系列长期连载中


下期联盟的研读内容,会继续对人工智能芯片的新兴计算技术、神经形态芯片进行分析介绍,敬请期待。




感谢您抽出??·?来阅读此文

期待彼此的交流





长按二维码

一键关注


微信公众平台ID:chinawearable

联系人:Alice (CWCISA秘书处)
手机号:18910373711
Alice微信号:CWCISA_service







相关文章
评论
新版评论功能开发中
头条推荐
最新资讯