必一运动新闻
必一运动新闻
News center

必一运动清华团队发布3D DRAM存算一体架构!

2024-08-19

近日,清华年夜学集成电路学院于2024 ACM/IEEE第51届年度计较机系统布局国际钻研会(ISCA)上揭晓了国际首款面向视觉AI年夜模子的三维DRAM存算一体架构,可年夜幅冲破存储墙瓶颈,并基在三维集成架构特色,实现相似性感知计较,进一步提高AI年夜模子的计较效率。

存算一体作为新一代计较技能,于数据运算以及存储历程中实现了一体化设计,被以为是后摩尔时代最主要的成长标的目的之一,将为人工智能的年夜范围运用提供不竭的算力支撑。于更早以前,中科院以及清华年夜学就于该范畴不停研讨,慢慢冲破。

一老问题:内存墙以及IO墙的枷锁束缚

理解该文前,需要对于内存墙以及IO墙征象举行根蒂根基理解,这两类征象来历在当前计较架构中的多级存储。如图所示,当前的支流计较体系所使用的数据处置惩罚方案,依靠在数据存储与数据处置惩罚分散的系统布局(冯诺依曼架构),为了满意速率以及容量的需求,现代计较体系凡是采纳高速缓存(SRAM)、主存(DRAM)、外部存储(NAND Flash)的三级存储布局。

常见的存储体系架构及存储墙(全世界半导体不雅察制图)

每一当运用最先事情时,就需要不停��һ�˶�地于内存中往返传输信息,这于时间以及精神上都有着较年夜的机能耗损。越接近运算单位的存储器速率越快,但受功耗、散热、芯单方面积的制约,其响应的容量也越小。如SRAM相应时间凡是于纳秒级,DRAM则通常是100纳秒量级,NAND Flash更是高达100微秒级,当数据于这三级存储间传输时,后级的相应时间及传输带宽都将拖累总体的机能,造成 存储墙 。

IO墙则孕育发生在外部存储中,由于数据量过在重大,内存里放不下就需要借助外部存储,并用收集IO来拜候数据。IO体式格局的拜候会使患上拜候速率降落几个数目级,严峻拖累着总体机能,这便是IO墙。

现代处置惩罚器机能的不停晋升,而内存与算力之间的技能成长差距却不停增年夜。业界数据显示,于已往的20多年中,处置惩罚器的机能以每一年约莫55%速率倏地晋升,而内存机能的晋升速率则只要每一年10%摆布。而且,今世内存容量扩大面对着摩尔定律的压力,速率于逐年缓解的同时,带来的则是成本的愈发昂扬。跟着年夜数据AI/ML等运用发作,以上问题已经经成为制约计较体系机能的重要要素。

二新问题:近存计较与 滩前问题

据悉,岳志恒该论文标题问题为Exploiting Similarity Opportunities of Emerging Vision AI Models on Hybrid Bonding Architecture,尹首一传授,胡杨副传授为本文通讯作者,岳志恒为论文第一作者,论文互助者还包孕喷鼻港科技年夜学涂锋斌助理传授,上海交通年夜学李超传授等。

更早之前,岳志恒就揭晓了题为Understanding Hybrid Bonding and Designing a Hybrid Bonding Accelerator《理解混淆键合以及设计混淆键合加快器》的论文,可视为上文的前身。该文于3D DRAM根蒂根基上,提出了一种哄骗CSE加快视觉AI模子的混淆键合设计,并提供了混淆键合设计的周全阐发,于多种基准事情负载以及数据集上评估,该项事情平均提高了5.69 ~28.13 的能效以及3.82 ~10.98 的面积效率。整体而言,该文触及了混淆键合DRAM技能成长、I/O密度的限定以及扩大的难题、2.5D TSV进步前辈封装的作用等内容。

存储计较跟着时代的成长已经呈现各类新的问题以及限定。于岳志恒的论文中,提到了近存计较与 滩前问题 两个观点。近存计较则是最近几年行业广泛接纳HBM作为解决方案后,再辅以进步前辈封装体式格局将HBM芯片与计较芯片于silicon interposer上集成,以此计较芯片与存储芯片近间隔集成封装,实现了计较单位与存储单位之间数据的较短间隔传输,经由过程 近存计较 提高处置惩罚机能。

于此冲破下,此种高带宽近存方案仍遭到 滩前问题 制约。滩前问题是指,假定计较芯片是一个海岛,则可以放置数据I/O通道的位置为岛的沙岸位置,而沙岸的长度则是可以放置I/O的总长度。当遭到旌旗灯号串扰等要素约束时,相邻的I/O位置受限,从而致使2.5D近存集成方案下I/O数目没法进一步晋升,从而难以晋升带宽。

为相识决滩前问题,今朝业界正慢慢提高计较单位可用带宽,如二维存内计较,就是基在DRAM的存内计较进一步将计较单位集成于存储阵列内部,详细而言,于每一个存储Bank周围集成计较单位,Bank数据读出后,被相邻计较单位当即处置惩罚,实现了Bank级另外存内计较,有用解决了二维近存方案的滩前问题。

二维存内计较也有着缺陷,论文提到,与进步前辈逻辑工艺比拟,集成在DRAM阵列内的计较电路机能有差距、面积价钱高。同时,引入的计较单位将挤占DRAM存储阵列面积,形成DRAM自身的存储容量降落。例如,Samsung HBM-PIM于引入存内计较单位后,存储容量削减了50%。

三清华冲破:立异三维存算交融架构

针对于近存架构的带宽瓶颈以及二维存内计较架构的工艺瓶颈问题,研究团队初次摸索了三维立体存算一体架构方案。此方案经由过程将计较单位与DRAM存储单位于垂直标的目的重叠,单位间以金属铜柱作为数据通道互联,有用解决了 滩前问题 ,能肆意位置放置数据I/O,年夜幅提高数据通路密度。DRAM阵列与计较逻辑可自力打造,逻辑电路不受DRAM工艺限定,不影响存储容量。

于本架构中,DRAM阵列由基本DRAM Bank构成,每一个DRAM Bank与对于应的计较Bank经由过程hybrid bonding工艺于垂直标的目的重叠,两者经由过程高密度铜柱交互数据。互连铜柱间隔短、寄生容抗小,数据通路等效在互连线直连,每一个DRAM Bank与对于应的计较Bank组成了Bank级存算一体单位(如图1所示)。

图1,三维DRAM存算一体架构

团队同时摸索了Bank级存算一体架构下的设计空间,包孕DRAM Bank适配的计较Bank算力,计较Bank的片上缓存巨细,三维集成引入的面积开消等;并深切阐发了三维架构的硬件靠得住性及散热问题,实现了完备的存算一体架构设计,年夜幅冲破了存储墙瓶颈,对于AI年夜模子运算,提供了无力的撑持。

四相似性感知的三维存算一体架构

为进一步晋升体系机能,设计团队提出了相似性感知三维存算一体架构。试验发明,激活数据于存储阵列内持续存储时,局部区域数据具备相似性,本文归结为存储数据的簇相似效应。哄骗此特征,设计团队提出于三维存算一体架构内,每一个计较Bank可以或许自力且并行地挖掘对于应DRAM Bank内数据的相似性,并哄骗相似数据完成计较加快,晋升体系机能。

该存算一体设计降服了三个要害技能难点:1.怎样寻觅相似数据。因为DRAM Bank空间年夜,遍历搜刮相似数据将引入极年夜的功耗以及时间开消;2.怎样哄骗相似数据。先前存算一体单位并未针对于数据相似性特色设计,没法充实挖掘其带来的机能增益;3.怎样均衡相似数据。因为于三维存算一体架构内,差别的计较Bank自力并行,是以体系机能受制在负载最重的计较Bank。本存算一体架构为解决以上坚苦,提出了三项要害技能:

1基在热门机制的DRAM Bank相似数据搜刮方案

研究团队提出接纳热门机制完成倏地的相似数据搜刮。热门数据为具备区域信息代表性的数据,即其与区域内大都数占有高相似性。本设计接纳内容可寻址单位网络差别区域的热门数据,新数据从DRAM Bank读出时先于该单位内倏地搜刮婚配区域热门数据,此热门数据作为参考值与后续读出数据履行差分操作(如图2所示)。因为数据之间存于相似性,是以差分成果每每具备高稀少特征,可被用在计较加快。

图2相似性感知的硬件加快单位

2针对于相似数据特征的渐进式稀少计较单位

当DRAM Bank数据读出并经预处置惩罚单位差分操作后,因为热门数据与DRAM Bank内区域数据具备相似性,异或者成果每每于高比特位存于年夜量0值。针对于这一稀少特征,存算一体架构设计了渐进式稀少检测机构。先将完备数据按权重位置分块,判定数据比特块是否全为0,若全0则间接跳过对于应数据块计较,非0部门由计分牌硬件单位迅速定位有用数据。完成稀少检测后,计分牌单位选择将非冗余数据块送入PE阵列举行计较,从而跳过了稀少比特,提高了计较效率(如图3所示)。

图3渐进式稀少计较单位

3针对于数据相似性差异的负载平衡机制

本存算一体架构接纳Bank级并行,差别计较单位对于应的DRAM Bank内数据相似性可能存于较年夜不同(如图4所示)。这是由于数据相似性由硬件单位于运转时动态检测,没法于使命映照时提早判别。针对于差别计较Bank使命不平衡的问题,本方案借助DRAM Bank间的数据相似性,对于使命负载举行压缩处置惩罚,并于差别计较Bank间重分配使命,削减对于片间路由收集带宽的挤占,实现Bank级另外负载平衡以及机能晋升。

图4因为数据相似性差异致使的负载不平衡

本事情完成为了存算一体架构设计、单位电路实现及机能功耗面积阐发。试验成果显示于体系性的AI使命负载上,本架构比拟公然报导的高算力AI芯片,如Wormhole以及TPUv3,3D基线实现了6.72倍以及2.34倍的吞吐量晋升。相似性技能进一步将吞吐量提高了1.21倍。(如图5所示)于能效方面,3D基线相较在Wormhol以及TPU实现了3.49倍以及2.89倍的晋升。数据相似性进一步晋升了1.97倍的能效。(如图6所示)

图5有用吞吐晋升

图6有用能效晋升

五存算一体新冲破,中科院、清华齐发力

于存算一体范畴,我国科学院、高校对峙研发研讨。本年2月,中国科学院微电子研究所刘明院士团队研发出基在外积运算的数模混淆存算一体宏芯片,设计了一种数模混淆浮点SRAM存内计较方案,提出了模仿与数字存算宏的混淆要领,联合了使用模仿存算方案举行高效阵列内位乘法以及使用数字存算方案举行高效阵列外多位移位累加的长处,到达总体上高能量效率与面积效率。经由过程残差式数模转换器架构,使数模转换器所需分辩率仅为输入位精度的对于数,实现了高吞吐率以及低开消。经由过程基在矩阵外积计较数学道理的浮点/定点存算块架构,矩阵-矩阵-向量计较可经由过程累加器元件完成。

该冲破以 A 28nm 72.12TFLOPS/W Hybrid-Domain Outer-Product Based Floating-Point SRAM Computing-in-Memory Macro with Logarithm Bit-Width Residual ADC 为题揭晓于ISSCC 2024国际集会上,微电子所玻士生袁易扬为第一作者,张锋研究员与北京理工年夜学王兴华传授为通信作者。该研究获得了科技部重点研发规划、国度天然科学基金、中国科学院战略先导专项等工程的撑持。

据悉,同以前的数字存算方案使用矩阵内积道理的年夜扇入、多级加法器树比拟,吞吐率更高。该架构还撑持细粒度的非布局激活稀少性以进一步晋升整体能效。该存算一体宏芯片于28nm CMOS工艺下游片,可撑持BF16浮点精度运算和INT8定点精度运算,BF16浮点矩阵-矩阵-向量计较峰值能效到达了72.12TFLOP/W,INT8定点矩阵-矩阵-向量计较峰值能效到达了111.17TFLOP/W。这一研究成果为接纳数模混淆方案的存算一体架构芯片提供了新思绪。

此外,去年10月,清华年夜学集成电路学院传授吴华强、副传授高滨团队基在存算一体计较范式,研制出全世界首颗全体系集成的、撑持高效片上进修的忆阻器存算一体芯片,于撑持片上进修的忆阻器存算一体芯片范畴取患上庞大冲破。该研究结果以 面向边沿进修的全集成类脑忆阻器芯片 (Edge Learning Using a Fully Integrated Neuro-Inspired Memristor Chip)为题于线揭晓于《科学》(Science)上。

不异使命下,该芯片实现片上进修的能耗仅为进步前辈工艺下公用集成电路(ASIC)体系的3%,揭示出卓着的能效上风,极具满意人工智能时代高算力需求的运用潜力,为冲破冯 诺依曼传统计较架构下的能效瓶颈提供了一种立异成长路径。

吴华强先容,存算一体片上进修于实现更低延迟以及更低能耗的同时,可以或许有用掩护用户隐衷以及数据。该芯片参照仿生类脑处置惩罚体式格局,可实现差别使命的倏地 片上练习 与 片上辨认 ,可以或许有用完成边沿计较场景下的增量进修使命,以极低的耗电顺应新场景、进修新常识,满意用户的个性化需求。

封面图片来历:拍信网

一、「DRAMeXchange-全世界半导体不雅察」包罗的内容以及信息是按照公然资料阐发以及演释,该公然资料,属靠得住之来历汇集,但这些阐发以及信息并未经自力核实。本消息网有权但无此责任,改良或者更正于本消息网的任何部门之过错或者疏掉。 二、任安在「DRAMeXchange-全世界半导体不雅察」上呈现的信息(包孕但不限在公司资料、资讯、研究陈诉、产物价格等),力图但不包管数据的正确性,均只作为参考,您须对于您自立决议的举动卖力。若有讹夺,请以各公司官方消息网宣布为准。 三、「DRAMeXchange-全世界半导体不雅察」信息办事基在"现况"及"现有"提供,消息网的信息以及内容若有更改恕不另行通知。 四、「DRAMeXchange-全世界半导体不雅察」尊敬并掩护所有使用用户的小我私家隐衷权,您注册的用户名、电子邮件地址等小我私家资料,非经您亲自许可或者按照相干法令、法例的强迫性划定,不会自动地泄露给第三方。 「DRAMeXchange-全世界半导体不雅察」所刊原创内容之著述权属在「DRAMeXchange-全世界半导体不雅察」消息网所有,未经本站之赞成或者授权,任何人不患上以任何情势重制、转载、扩散、援用、变动、广播或者出书该内容之全数或者局部,亦不患上有其他任何违背本站著述权之举动。/必一运动

上一篇:必一运动存储技术最新资讯动态 下一篇:必一运动纳芯微终止收购昆腾微67.60%股份意向