6月2日消息,ASIC全称Application-Specific Integrated Circuit,即专用集成电路,这类芯片从设计之初就锁定单一业务场景,去除多余通用计算模块,和可灵活编程的通用GPU形成鲜明技术分化。
近些年来,美国接连落地的先进半导体出口管制政策,持续扰动国内AI芯片产业的发展节奏。此前国内AI算力基建高度依赖英伟达GPU,供应链受限之后,本土芯片厂商不再局限于复刻某一款英伟达芯片产品,而是转向搭建全链路自主的芯片生态。
行业逐渐分化出通用GPU、ASIC专用芯片两条技术路线,华为、寒武纪、阿里、摩尔线程等企业各自锚定不同赛道,两条路线的发展走向,直接决定国内DeepSeek、阿里等本土头部大模型的算力底座建设进度。
通用GPU路线,对标英伟达的全能备选方案
想要理清两条路线的差异,首先要弄懂GPU产品的底层定位。GPU最初的研发目的是处理游戏画面渲染工作,上世纪九十年代,英伟达依靠GeForce 256产品打响名号,这款产品也被业界公认是全球首款GPU。
时隔多年,GPU在AI产业浪潮中迎来价值跃升,多核心并行运算的硬件特质,刚好匹配人工智能神经网络海量的并行计算需求。
与此同时,可编程是GPU难以替代的核心优势。在硬件架构固定的前提下,研发人员能够反复改写配套软件代码,灵活适配持续迭代的大模型结构,这类灵活属性,也是英伟达GPU能够长期垄断全球AI算力市场的关键。
立足国内市场,有“GPU芯片四小龙”之称的摩尔线程、壁仞科技、燧原科技、天数智芯,是本土通用GPGPU赛道四大核心玩家。其中2020年成立的摩尔线程看点突出,企业创始人张建中拥有多年英伟达中国区高管任职履历,熟悉英伟达产品与生态崛起的底层逻辑,企业现阶段主力落地MTT S5000系列通用芯片,也是国内对标英伟达通用路线最具代表性的初创企业。
不过,通用GPU想要追赶海外成熟产品,除硬件打磨外,还需要漫长周期完善配套软件生态,整体商业化落地进度相对迟缓。
ASIC定制芯片,华为等国内大厂集体重仓的破局方向
GPU属于通才,而ASIC的核心特点是专才专用。
ASIC的产品设计逻辑和通用 GPU完全相悖。如果把GPU看作身兼数职的全能技工,ASIC就是针对单一工序量身打造的专属设备。
芯片电路全部围绕固定运算需求设计,不会为无关功能预留晶体管、功耗与硬件空间,没有多余硬件开销的前提下,ASIC在专属AI运算场景里,运算速度、能耗表现都显著优于通用芯片,这也是当前国内头部科技企业扎堆布局ASIC赛道的核心原因。
按照芯片优化的数学运算方向划分,国内已经形成三种落地成熟的ASIC细分架构,分别是NPU、TPU与PPU,三类产品的设计逻辑、适用场景各有明确区分。
第一类是NPU神经网络处理器(Neural processing units),硬件架构研发逻辑参考人脑神经网络的运行机理,电路单元专门针对神经网络权重计算、特征提取等专属运算优化,是当前大模型训练与推理场景普及率最高的专用ASIC品类,华为昇腾全系列、寒武纪思元产品线均属于NPU产品。
第二类是TPU张量处理器(Tensor processing units),由谷歌率先研发并商用落地,产品架构面向AI任务中成块张量数据做批量并行运算优化,砍掉通用计算冗余模块,能效表现优于传统GPU,如今全球多家科技企业都在自研自有TPU,国内中昊芯英已经实现自研TPU批量投产。
第三类则是PPU并行处理单元(Parallel processing units),为阿里巴巴平头哥自研定制化ASIC架构,没有照搬NPU、TPU成熟设计,专为阿里云业务、智能代理类AI任务量身开发。
华为深耕NPU赛道,主力产品包含已经大规模商用的昇腾910C以及尚在推进的新一代昇腾950。寒武纪同样锚定ASIC专属架构,思元590、思元690系列产品持续迭代更新。依托定制化硬件的高效算力,两家企业顺利绕开海外芯片采购限制,撑起国内云端算力基础设施。
除此之外,阿里平头哥选择自研PPU路线,前不久在阿里云年度峰会上正式发布真武M890处理器。官方数据显示,这款新品综合性能达到前代真武810E 的三倍,产品优化方向精准适配当下火热的智能代理AI算力需求。
国内还有中昊芯英等初创企业跟进TPU国产化研发,自研TPU产品已经实现规模化量产,这也和谷歌等海外科技巨头放弃全盘外购通用GPU,自研定制芯片的全球产业趋势保持一致。
随着大模型参数体量不断攀升,ASIC和GPU原本清晰的技术边界正在慢慢消融。但从商业化落地成本来看,量产上线成熟AI应用时,ASIC的部署与运维成本优势十分突出,国内云厂商扩建自有算力集群的过程中,会更偏向采购ASIC芯片,这条路线的市场渗透率还会持续走高。
从摩根士丹利分析师Charlie Chan在5月8日发布的行业研报显示,机构预测2026年国内AI加速芯片市场份额会出现明显倾斜,预计华为凭借昇腾系列拿下62%的市场占比,寒武纪紧随其后占据14%,百度与阿里依托自研芯片各自瓜分约5%的市场份额,头部ASIC厂商稳稳把持国内绝大部分算力市场。
算力实测数据进一步印证国产ASIC的技术突破,行业以每秒token生成量作为性能评判标准,实测结果显示,华为昇腾950、寒武纪思元690的算力表现,对比英伟达受管制后获准对华售卖的顶配H20芯片高出50%至150%。
国内AI产业的核心诉求是面向亿万普通用户落地各类C端 AI 产品,更高的生成效率可以直接压低云端运行成本,这也是定制ASIC产品快速抢占商用市场的核心原因。
硬件只是一环,自研软件栈才是摆脱CUDA枷锁关键
进一步来说,国产芯片想要真正打破英伟达的行业垄断,单纯实现硬件参数赶超远远不够。英伟达稳固行业地位的核心壁垒,是深耕多年的CUDA全栈软件生态,海量开发者长期基于这套工具开发程序,形成极强的用户绑定效应。
在此背景下,国内芯片厂商同步开启自研配套软件工作,华为搭配昇腾硬件打造CANN软件栈,摩尔线程围绕自家GPU开发 MUSA 生态,软硬件协同打磨,才能从根源跳出海外生态束缚,稳定支撑DeepSeek、阿里等本土头部大模型落地运行。
两条路线无优劣之分,落地场景决定最终选型
站在产业长期发展的角度,ASIC和通用GPU不存在优胜劣汰的竞争关系。企业选择芯片路线,完全由自身业务体量与研发成熟度决定。
具备完善自研团队、AI业务场景固定的大型科技企业,选用ASIC芯片可以收获更高算力性价比。日常业务繁杂,同时兼顾多类型AI开发、渲染、计算混合负载的项目,依旧离不开通用GPU的灵活适配能力。
结语
客观上来说,美国出口管制倒逼了国内AI芯片产业加速自主化进程,短期之内,ASIC产品凭借成本与算力优势占据商用市场主流。
长远来看,通用GPU与ASIC会长期并行发展,分别覆盖不同细分算力需求。
伴随国产软硬件生态持续完善,国内AI产业链将逐步摆脱海外芯片牵制,属于本土算力硬件的产业周期才刚刚拉开序幕。