15
2024
08

【ATID-170】潜入教師 AYA 对话亿铸科技董事长熊大鹏: 存算一体或开启AI时期算力第二增长弧线

发布日期:2024-08-15 20:31    点击次数:203

【ATID-170】潜入教師 AYA 对话亿铸科技董事长熊大鹏:  存算一体或开启AI时期算力第二增长弧线

东谈主工智能(AI)的爆发带来了海量算力需求,而在后摩尔时期,芯片先进制程靠近物理极限,存算一体有望成为改日紧迫技能阶梯之一。

存算一体,即数据存储与估计交融在并吞个芯片的并吞派区之中。存算一体架构芯片的性能上风和资本上风体当今哪些方面?目下大边界商用濒临哪些挑战?存算一体会成为国内芯片产业换谈超车的一种可能吗?

第一财经近日就上述话题与亿铸科技独创东谈主、董事长兼CEO熊大鹏进行了交流。在他看来,存算一体技能在改日估计边界具有变革性后劲,将冲突摩尔定律,开启算力第二增长弧线。“止境是在AI时期,这种技能可能会成为推动算力增长的要害成分。”

冲突冯诺依曼架构,摒除三浩劫题

在传统冯诺依曼架构下,估计和存储功能辞别由估计单位(CPU、GPU等XPU)和存储单位完成。数据从存储器中获取,处理完毕后再回到存储器,从处理单位外的存储器搬运和读取数据所需的时刻经常是运算时刻的数倍,导致估计效果或有用算力的下跌。

“在大模子盛行的今天,为了完成估计需要搬运模子参数,而参数目很大,所破耗的时刻占比很高,以至越过80%,部分情况下这个比例更高。因此数据带宽截止了实践的有用性能,芯片纸面性能可能是一个P,但实践性能可能远远低于这个数。这即是所谓的‘存储墙’。”熊大鹏对第一财经暗意。

伴跟着“存储墙问题”问题同期出现的,是多半能耗逝世在了传输经过中,导致芯片的能效比显耀镌汰,即“能耗墙”问题。

此外,还有“编译墙”问题——即动态数据流篡改复杂,编译器无法在静态、可预测情况下自动优化算子和可施行要道来完满数据流优化,需要依赖手动调优等来达到较高的有用算力,加大了实践部署和迁徙的时刻和东谈主力资本。“这三点齐极大截止了资源日益紧缺、功耗大幅增长的AI产业的发展。”熊大鹏暗意。

存算一体技能则冲突冯诺依曼架构,将存储功能与估计功能交融在并吞个芯片上,胜利诳骗存储单位进行数据处理——通过修改“读”电路的存内估计架构,不错在“读”电路中获取运算已矣,并将已矣胜利“写”回存储器的宗旨地址,不再需要在估计单位和存储单位之间进行经常的数据迂回,摒除了数据搬移带来的逝世,极大镌汰了功耗,大幅栽种估计效果。

“存算一体技能有望成为后摩尔时期的紧迫技能阶梯之一。从有用算力的第一性旨趣来看,关于存算一体,数据搬运量大幅下跌,有用算力呈现线性增长。不错说存算一体将冲突摩尔定律,开启算力第二增长弧线。同期,深信存算一体技能在改日估计边界的变革性后劲,止境是在AI时期,这种技能可能会成为推动算力增长的要害成分。”熊大鹏称。

能效比与性价比更优的惩处决策

与近期爆火的高带宽存储芯片HBM比拟【ATID-170】潜入教師 AYA,存算一体架构芯片的系统能效比和性价比更优。

HBM是一种高性能的内存接口技能,主要用于栽种GPU和高性能估计(HPC)系统的数据处理才能。这种技能通过垂直堆叠DRAM芯片,并使用高速互联将它们与处理器详细诱骗,从而大幅加多带宽。

“HBM是惩处‘存储墙’问题的有用技能阶梯,但需要付出资本和功耗的代价,因为提供大带宽需要更高功耗,价钱也格外贵,远远越过传统DRAM的价钱。”熊大鹏暗意,“本色上来说,HBM是一个存储芯片,并不具备估计功能,需要搭配GPGPU等估计芯片才能够完满估计功能。”

从系统资本上看,存算一体芯片可能比传统GPGPU加HBM的组合更低。

一方面缘于存算一体架构的算力密度或PPA更高。“存算一体架构的等效数据带宽折算下来远远越过HBM,可能是几倍以至十倍以上的差距,同期其算力密度更具上风,实践有用算力、性价比、能效比齐会远高于GPGPU+HBM决策。”熊大鹏暗意。

另一方面,存算一体技能对先进工艺的依赖相对较低,而GPGPU和HBM齐严重依赖先进制程。“HBM依赖先进制程,有很大的供应链风险,而选拔存算一体技能阶梯,即使不选拔先进制程,比如12nm、22nm,作念出来的性能比拟4nm以至3nm可能并不差,这亦然换谈超车的成见。”

性价譬如面,尽管存算一体可能需要更多的芯片数目来达到疏通性能,但其高性价比和高能效比是显耀上风之一。

改日2-3年或在大模子边界大边界落地

全国范围内对存算一体技能的盘考和应用正在加快鼓舞。

目下,国外选拔存算一体阶梯的大算力芯片企业包括AI芯片初创企业Groq,估值越过28亿好意思元,被视为英伟达的强盛敌手;d-Matrix则赢得微软、淡马锡、三星、Marvell、海力士、爱立信等多家企业投资。

此外,三星也已在Nature上发表了基于MRAM的存内估计盘考,并展示其AI算法的高准确率。SK海力士则推出了基于GDDR接口的DRAM存内估计产物,可大幅栽种估计速率并镌汰功耗。

“据我所知,大多数国外企业是基于SRAM来完满有算一体,但它的容量较低、资本较高。比如Groq的齐全惩处决策约略需要570多颗芯片,如果选拔英伟达H100所需要的芯片数目仅在个位数。这主若是存储密度不够导致的。”熊大鹏暗意,国内有不少新兴企业在存算一体技能上取得了突破,为中国芯片产业换谈超车提供了可能性。

不外,存算一体芯片的算力大边界膨胀时,还濒临诸多挑战:一是精度不真确的问题;二是基于模拟估计,数模模数迂回带来了能耗、die size和性能的瓶颈;三是AI大模子对容量有条件。

“全数字化旅途能够很好地惩处这些问题,这亦然亿铸科技作念AI大算力推理芯片的依据。”熊大鹏暗意。

在一般模拟的存算一体系统中,数据以模拟信号的形状存储,以存储单位内不同的电压电平来暗意,基于欧姆定律和基尔霍夫定律(Kirchhoff’s Laws)施行MAC等运算。这种决策的最大问题在于精度偏握精度的不真确,模拟电路噪声和多样变量是其华夏因。无论是制造工艺也曾责任环境,齐会让忆阻器代表的数值有过失或漂移。数模羼杂范例尝试均衡效果和精度问题,但依旧不可保证高精度偏握精度真确度。

熊大鹏先容,亿铸科技的决策是全数字化存算一体。因为是全数字化,数据以二进制的形状放进存储单位内,也就只须上下电平、上下电阻、上下电流的区别,这种情况下就能作念到可靠。

此外,存算一体的发展还濒临着工程落地问题。“行为新技能阶梯,何如诳骗现有生态和融入现有生态,是一个很大的挑战。可编程性和现有生态的兼容性至关紧迫。”熊大鹏对第一财经暗意。

抽象来看,存算一体技能在全国范围内被视为惩处高算力需乞降高能耗资本矛盾的有用技能,同期也为中国芯片产业提供了一次紧迫的赶超契机。改日几年,跟着技能的不绝老练和商场需求的加多,存算一体芯片有望在多个边界得到平常应用,并推动通盘这个词产业的革命发展。目下,存算一体芯片在大模子边界的应用仍处于开发阶段,熊大鹏瞻望,在改日2-3年内会完满大边界落地。

举报 第一财经告白合营,请点击这里此内容为第一财经原创,著述权归第一财经通盘。未经第一财经籍面授权,不得以任何形状加以使用,包括转载、摘编、复制或开采镜像。第一财经保留淡雅侵权者法律包袱的职权。 如需赢得授权请关联第一财经版权部:021-22002972或021-22002335;banquan@yicai.com。 文章作家

冯丽君

关联阅读 巴菲特抛售半数苹果股票,百岁老东谈主简直承接不了AI时期

AIGS(东谈主工智能生成的处事)时期行将到来。

昨天 15:14 14亿条腾讯用户数据被盗?AI时期“老数据”有安全新风险

访佛酬酢用具、电商或金融场景的用户数据,即使是历史数据,也会因波及账户、密码、关联形状、用户行为民俗等产生“价值”。

91porn.me 昨天 16:03 AI时期的IDC,把钱投向了那儿 | 海斌访谈

“你从北京清河坐一站火车到张家口,电费是6毛傍边;你再坐一站火车,到乌兰察布电费约略能低廉一半。”

07-25 20:43 5G-A为AI腾出“舞台”巨头发声“转移AI时期”谨慎开启|行业风口

06-27 15:38 微软AI负责东谈主:AI时期需要新的束缚机制

应雅致对待与AI关联的安全风险【ATID-170】潜入教師 AYA。

06-27 15:19 一财最热 点击关闭

相关资讯
热点资讯


Powered by 暴力小说 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024 版权所有