国产 GPU 与 AI 加速器行业深度研究:国产替代、技术路线与淘汰赛

系统梳理中国国产 GPU 与 AI 加速器产业的厂商梯队、技术路线、生态差距、应用场景与未来淘汰赛格局。

1. 执行摘要

1.1. 行业当前状态与核心判断

2025年是中国国产AI加速器市场的 分水岭之年。据IDC数据,2025年中国AI加速卡总出货量约400万张,其中国产厂商合计出货约165万张,市场份额首次突破四成,达 41% [1]。NVIDIA在华份额从2022年的85%骤降至2025年的55%(约220万张),三年内丢掉约40个百分点 [4]。AMD出货约16万张,占比约4% [1]

按销售额口径,海外投行Bernstein报告显示,2025年华为昇腾以约102.68亿美元销售额占据国内AI加速器市场约40%份额,与NVIDIA(约101.98亿美元)基本持平,断层领先 于其他国产厂商 [6]。国产AI芯片整体销售额从2024年的60亿美元增长至160亿美元,增速达112%,几乎是国外芯片的三倍 [7]

核心判断:市场已从”英伟达绝对垄断”演变为”英伟达(55%)+ 华为昇腾(20%)+ 其他国产(21%)“的三层结构。但注意,这41%的国产份额高度集中于华为——若剔除华为,其余十余家国产厂商合计出货约84万张,仅占约21%,市场集中度极高。

1.1.1. 国产替代进展:推理先行、训练破冰、图形缺位

国产替代呈现明显的 “场景梯度” 特征:

推理侧——已进入规模化替代阶段。 2025年国产AI芯片在推理场景的渗透率最高,尤其是政企AI服务器、运营商智算中心和互联网推理业务。中国移动2025-2026年AI推理服务器集采中,昆仑芯在三个标包分别拿到70%、70%、100%份额,中标金额达十亿级 [8]。寒武纪、华为昇腾、海光DCU等已在运营商、金融、能源等关键行业实现规模化部署 [9]。瑞穗证券报告指出,华为昇腾910C的推理成本仅为H100的约10% [10]——在推理场景中,性价比优势已开始超越生态壁垒的制约

训练侧——2026年被定义为”国产训练落地元年”。 大模型预训练对芯片的算力、显存带宽、卡间互联和集群稳定性要求极高。截至2025年底,绝大多数大模型基座训练仍依赖NVIDIA,国产芯片主要用于微调、后训练和垂直场景训练 [11]。但转折点已出现:DeepSeek于2025年首次披露针对国产芯片的专项优化 [11];华为昇腾910C在FP16算力上达到800 TFLOPS,已接近H200水平 [12];摩尔线程S5000实现千卡集群部署,效率据称超过同等规模国外同代系GPU集群 [13]。大量智算中心采用”异构部署”策略:NVIDIA承担核心基座训练,国产芯片承担推理、微调与垂类任务 [11]

图形渲染——国产化率最低的短板。 真正具备完整图形渲染管线(Graphics Pipeline)的国产GPU厂商极少,仅摩尔线程(全功能GPU路线)、景嘉微(军用显控+信创桌面)、芯瞳半导体(信创桌面)等少数几家。在消费级3A游戏、专业图形工作站(CAD/CAE/CG)领域,国产GPU基本处于空白状态。摩尔线程的”庐山”系列专攻高性能图形渲染,光线追踪性能提升目标50倍,但仍在研发阶段 [14]。景嘉微JM9230等对标NVIDIA低端显卡,仅满足党政军办公和简单3D渲染需求 [14]

1.1.2. 技术成熟度判断:硬件追到60-70%,软件差距仍是核心瓶颈

1.1.2.1. 硬件层面:从”可用”走向”好用”的关键转折点

国产AI芯片在硬指标上已取得显著突破 [15]

维度当前水平与国际差距代表产品
峰值算力(FP16)旗舰产品达H100的60-70%约1-2代昇腾910C、壁仞BR100
显存容量64-128GB HBM2e/HBM3接近H100(80GB),落后H200(141GB)昇腾910C (128GB)
显存带宽最高3.2TB/s接近H100(3.35TB/s),落后B200(8TB/s)昇腾910C
制程工艺7nm为主(SMIC N+2)落后台积电4nm约2代多数国产芯片
卡间互联自研互联方案,带宽低于NVLink差距明显华为HCCS等
集群规模万卡级别已实现接近实用水平昇腾、摩尔线程

架构师判断:国产芯片的”纸面算力”已不差,真正的差距在 算力利用率(MFU)。以千亿参数大模型训练为例,NVIDIA H100集群的MFU可达50-60%,而多数国产芯片集群的MFU仍在30-40%区间——这并非硬件问题,而是 软件栈成熟度 的映射。

1.1.2.2. 软件生态:从”能用”到”好用”的最大鸿沟

软件生态是国产GPU/AI芯片当前最核心的瓶颈,具体表现为:

  • 框架兼容性:从NVIDIA GPU迁移千亿参数大模型至国产芯片,往往需要1-3个月的适配周期 [16]。华为CANN、寒武纪NeuWare、摩尔线程MUSA、沐曦MXMACA等各自为战,无统一标准,开发者需在不同芯片间重新做算子适配、性能调优,甚至修改底层代码 [16]
  • 算子覆盖率:主流深度学习框架的算子库,国产芯片的覆盖度普遍在60-80%之间,而NVIDIA CUDA算子覆盖度接近100%。这导致部分模型架构在国产芯片上无法直接运行或需要大量适配工作。
  • 通信库差距:NVIDIA NCCL在大规模集群通信中高度优化,国产方案(如华为HCCL)在带宽利用率和稳定性上仍有差距,直接影响万卡集群训练效率。
  • 开源生态:CUDA生态拥有超过400万开发者和海量开源项目,国产芯片的开发者社区规模普遍不足其1/10 [17]

关键判断:软件生态追赶所需时间远超硬件追赶。硬件迭代可以”大力出奇迹”,但生态建设需要开发者社区、工具链、文档、开源项目的长期积累。未来3-5年,软件生态的成熟度将决定哪些厂商能活下来。

1.1.3. 竞争格局核心判断

1.1.3.1. 两大技术阵营分明

中国国产AI芯片产业已形成 GPGPU路线ASIC/NPU路线 两大阵营 [18]

阵营代表厂商优势劣势
GPGPU路线海光DCU、沐曦、摩尔线程、壁仞、天数智芯CUDA兼容度高,迁移成本低,通用性强专利壁垒、制程受限、功耗较高
ASIC/NPU路线华为昇腾、寒武纪、昆仑芯、平头哥、燧原性能密度高,功耗低,全栈自研生态封闭,迁移成本高,灵活性差

GPGPU阵营的核心逻辑是”降低迁移成本”——通过兼容CUDA生态(海光ROCm、沐曦MXMACA、摩尔线程MUSA)让客户以最低代价从NVIDIA切换。ASIC阵营的核心逻辑是”极致性能密度”——通过专用架构在特定场景实现最优性价比。

1.1.3.2. “一超多强”格局初定

2026年,国产AI芯片呈现”一超多强”格局 [20]

  • “一超”:华为昇腾。出货量81.2万张(占国产份额约49%),在20+城市智算中心占据79%份额 [21]。拥有从芯片(达芬奇架构)→互联(HCCS)→软件(CANN)→框架(MindSpore)→服务器的全栈能力,是唯一具备与NVIDIA正面竞争能力的国产厂商。
  • “多强”:寒武纪(2025年营收¥64.97亿,首个实现全年盈利的纯云端AI芯片企业 [22])、海光信息(CPU+DCU双轮驱动,x86兼容优势)、昆仑芯(中标中国移动十亿级集采 [8])、摩尔线程(全功能GPU路线,已科创板上市)。
  • “追赶层”:沐曦(CUDA兼容度高,2025年12月上市)、壁仞(BR100算力指标亮眼,但商业化规模偏小)、天数智芯(2026年1月港股上市,工业算力见长)、燧原(上海国资支持力度大)。

1.1.3.3. 行业仍处于”烧钱换增长”阶段

除华为(非上市主体)、寒武纪(2025年扭亏为盈)和海光信息(持续盈利)外,其余国产GPU厂商均处于大额亏损:

  • 摩尔线程2025年前三季度营收¥7.85亿,亏损¥7.24亿 [23]
  • 壁仞科技2025年上半年亏损¥16.01亿 [24]
  • 天数智芯2025年上半年亏损¥6.09亿 [25]
  • 沐曦2022-2025Q1累计亏损约¥32.9亿 [25]

三年来,摩尔线程、沐曦、壁仞三家累计研发投入分别约¥38亿、¥22亿、¥27亿 [26]。高研发投入是行业共性,但毛利率普遍在50-65%区间(壁仞因从定制化转向标准化销售,毛利率从76.4%降至31.9% [27]),短期内难以通过规模效应实现盈利

投资人视角:2025-2026年的IPO潮(摩尔线程、沐曦科创板,壁仞、天数智芯港股)为行业注入了宝贵的资本弹药,但”融资-研发-亏损-再融资”的循环不可持续。市场将在2027-2028年迎来第一轮淘汰赛——届时,能否实现经营性现金流转正 将是分水岭。

1.1.3.4. 智算中心是最大驱动力,但也存在泡沫风险

全国已建成万卡智算集群42个,智能算力规模超1590 EFLOPS [28]。2025年至少有222个亿元以上算力基建项目 [29]。但部分早期建设的智算中心存在 国产芯片闲置率高达80% 的问题 [30],核心原因在于软件生态不成熟导致”有卡用不起来”。2025年已出现智算中心建设”点刹”信号 [30]——从”铺量”转向”提质”。

1.1.4. 本节核心判断总结

维度判断置信度
市场规模2025年国产AI加速卡出货165万张,占41%份额高(IDC数据)
国产替代进度推理已规模化,训练刚破冰,图形基本缺位
硬件成熟度旗舰产品达H100的60-70%,制程落后约2代
软件成熟度最大短板,迁移成本高,MFU偏低,统一生态缺失
竞争格局”一超多强”,华为断层领先,中小企业面临淘汰赛中高
盈利能力除寒武纪/海光外全行业亏损,2027-2028为关键窗口中高
智算中心最大需求驱动力,但存在闲置泡沫,正从”铺量”转向”提质”

1.2. 厂商分层与梯队划分

按商业化规模、技术能力将厂商分为第一梯队、第二梯队、新兴潜力层

若将国产GPU/AI加速器赛道比作一场马拉松,2025-2026年已跑过”海选淘汰”阶段,进入 梯队分化明显的”中途跑”。基于2025年及2026年Q1的最新公开数据,我们按 商业化规模(营收/出货量)技术能力(芯片架构、软件栈、集群能力) 两个维度,将国产厂商划分为三个梯队。需要说明的是,分层并非”定终身”——第二梯队内部差距极小,2027年前后大概率出现剧烈洗牌。

1.2.1. 分层方法论

我们采用 “双轴四象限” 框架,对每家厂商同时评估:

评估维度核心指标权重
商业化规模年营收、出货量、市场份额、客户集中度、在手订单50%
技术能力芯片架构自研度、制程先进性、软件栈成熟度、集群能力(万卡级)、生态兼容性50%

在此基础上,结合 战略资源禀赋(股东背景、上市地位、国资支持)和 成长性(营收增速、亏损收窄趋势、产品路线图),进行综合定档。

1.2.2. 第一梯队:百亿营收级,全栈能力已验证

第一梯队的核心特征:年营收超50亿元(或出货量超10万片),具备从芯片→互联→软件→集群的全栈能力,已在万卡级智算中心实现规模化部署,客户覆盖头部互联网和运营商。

厂商2025年营收/出货核心壁垒生态位
华为昇腾营收~$75-102亿/出货81.2万张全栈自研(达芬奇+CANN+MindSpore+HCCS),20+城市智算中心79%份额国产绝对龙头
海光信息营收¥143.77亿/DCU出货~8.25万张x86 CPU+DCU双轮驱动,类CUDA生态,深算三号算子覆盖度>99%GPGPU阵营领军
寒武纪营收¥64.97亿/出货~11.6万张自研MLU架构,首个全年盈利的纯云端AI芯片企业,字节跳动大单锁定AI加速器标杆

华为昇腾 的断层领先地位几乎不可撼动——2025年单独占据国产AI加速卡出货量的约49%(81.2万张/165万张),以约40%的销售额份额与NVIDIA在中国市场形成”双寡头” [3103]。其达芬奇架构已迭代至第三代,自研HBM首次在950PR上实现突破,CANN生态开发者达400万,是 唯一具备与NVIDIA正面竞争全栈能力的国产厂商 [3041]

海光信息 的独特优势在于”CPU+DCU”协同——深算系列DCU兼容ROCm生态,算子覆盖度超99%,已适配365款主流大模型,对从NVIDIA迁移的客户而言迁移成本最低 [3000]。2025年营收143.77亿元(同比+56.92%),2026年Q1延续68%高增速,是国产GPU赛道上 财务基本面最健康的上市公司 [3198]

寒武纪 以纯AI芯片路线走通商业化闭环——2025年营收64.97亿元(+453%),归母净利润20.59亿元,成为 首个实现全年盈利的国产云端AI芯片企业 [3237]。思元590在字节跳动等大客户实现规模化落地,2026年Q1营收28.85亿元(+160%),增长惯性强劲 [3392]。但需注意,寒武纪走的是ASIC/NPU路线,并非传统GPU,其通用性和生态开放性弱于GPGPU阵营。

架构师判断:第一梯队的”入场券”不是某款芯片的纸面算力,而是 万卡集群的稳定交付能力。华为昇腾的Atlas 900 A3超节点已交付超300套,寒武纪参与中国移动哈尔滨智算中心(1.8万张加速卡),海光DCU已在超算场景验证——这些”集群级”能力是第二梯队短期内难以跨越的壁垒。

1.2.3. 第二梯队:十亿营收级,上市窗口期内的”出线”竞赛

第二梯队的核心特征:年营收在5-50亿元区间,已实现芯片量产和初步商业化,多数已上市或已递表,正处于”用资本弹药换技术和市场”的关键窗口期。这一层内部差距极小,2026-2027年将是决定”谁升入第一梯队、谁被边缘化”的分水岭。

1.2.3.1. “GPU四小龙”——均已上市,扭亏竞赛

厂商2025年营收上市情况市值(约)核心看点
沐曦¥16.44亿2025.12科创板~2393亿营收最高,毛利率56.51%,全国产工艺C600
摩尔线程¥15.05亿2025.12科创板~2820亿全功能GPU,“中国版英伟达”,夸娥万卡集群
壁仞科技¥10.35亿2026.1港股~900亿港元高端训练芯片BR20X,OCS光交换机
天数智芯¥10.34亿2026.1港股~484亿港元出货量国产GPU四小龙第一(3.8万片),客户最分散
厂商2025年营收上市情况市值(约)核心看点
燧原科技¥9.90亿2026.6过会(科创板)IPO预期400-600亿腾讯占83.79%营收,2026H1预期追平2025全年

沐曦 在第二梯队中营收规模领先(16.44亿元),毛利率最高(56.51%),亏损收窄幅度最大(44.53%),盈利路径最清晰 [3497]。其曦云C600采用全国产工艺,在供应链自主可控上具有独特优势 [3493]

摩尔线程 以”全功能GPU”路线独树一帜——MUSA架构同时支持AI训练推理和图形渲染,MTT S5000在DeepSeek 671B推理上斩获国产GPU纪录(Prefill >4000 tokens/s),夸娥万卡集群MFU达60% [3297]。2026年Q1实现单季归母净利润2936万元,成为四小龙中首个季度盈利的企业 [3334]。但前五大客户占比91.36%,客户集中度风险突出 [3033]

壁仞科技 以BR100系列的高算力密度和OCS光交换机方案为差异化武器,2025年营收增速达207%,但研发费用率高达142.6%,短期内盈利压力最大 [3484]

天数智芯 的客户结构最健康(前五大客户降至38.6%),推理业务同比增长238.2%,出货量在四小龙中领先(3.8万片),是”最不依赖单一客户”的国产GPU企业 [3592]

燧原科技 深度绑定腾讯生态(83.79%营收来自腾讯),2026年H1营收预期10.6-11.5亿元(同比+258%~289%),增速在第二梯队中最猛。但单一客户依赖度极高,腾讯若切换供应商将带来断崖式风险 [3541]

架构师判断:四小龙的估值逻辑目前仍以”赛道溢价”为主——沐曦2393亿市值对应2025年PS约145倍,摩尔线程2820亿对应PS约188倍。这种估值水平隐含了市场对”国产替代”的极高预期,但也意味着 任何商业化不及预期都会被剧烈修正。2026-2027年,谁能率先实现扣非净利润转正,谁就能在估值上获得”从PS到PE”的切换支撑。

1.2.3.2. 互联网系——自成生态,外部化是关键看点

厂商2025年数据生态位关键变量
阿里平头哥出货~26.5万张/真武累计56万片国产第二出货量,Qwen大模型深度绑定是否独立上市?外部客户能否持续扩大?
昆仑芯(百度)营收预估¥35-50亿/出货~6.9万→13万张中国移动十亿级集采中标,万卡集群点亮A+H两地上市能否兑现?外部客户占比能否突破50%?

阿里平头哥和昆仑芯的特殊性在于:它们背靠互联网巨头,在”内部市场”保障了基本盘,但也面临”外部客户是否信任竞争对手旗下芯片”的拷问。

平头哥 的真武系列已累计出货超56万片,2025年出货量26.5万张,在国产厂商中仅次于华为昇腾 [3794]。真武M890以144GB显存和800GB/s片间互联带宽对标高端竞品,且外部客户已超400家(含小鹏、比亚迪、国家电网等),超过60%算力服务于外部商业化客户 [3787]。平头哥若独立上市,将成为第一梯队的有力冲击者。

昆仑芯 2025年营收预估35-50亿元,已秘密递表港交所并启动科创板辅导,冲刺A+H两地上市 [3731]。中国移动2025-2026年AI推理服务器集采中,昆仑芯在三个标包均排名第一,份额分别达70%、70%、100% [20]——这是国产AI芯片在运营商市场的标志性突破。M100/M300均基于国产供应链,摆脱海外流片依赖,在中美博弈背景下具有战略价值 [3767]

1.2.3.3. 细分赛道龙头——小而美,但天花板有限

厂商2025年营收核心赛道独特优势
景嘉微¥7.20亿军用显控+信创桌面GPUA股唯一GPU上市公司,信创GPU市占率~25%

景嘉微 是国产图形GPU赛道上的稀缺标的——JM9系列在信创市场市占率约30%,JM11系列已进入小批量交付,2025年航天端芯片交付量突破10万片 [3851]。但其营收规模仅7.20亿元且连续两年亏损,AI/HPC领域竞争力有限,芯片业务毛利率一度低至15.08% [4056]。景嘉微的价值在于”信创GPU的确定性”——2027年央企100%国产替代目标为其提供了明确的政策驱动增长空间 [25]

1.2.4. 第三梯队(新兴潜力层):技术验证通过,商业化临门一脚

第三梯队的核心特征:已实现芯片流片或量产,但营收规模极小(<5亿元)或尚未盈利,处于”技术验证→规模化商业落地”的跨越期。这一层是”高风险高回报”区——技术路线正确者可能实现非线性增长,但多数企业面临资金链压力。

厂商最新进展商业化阶段核心看点主要风险
瀚博半导体SG100全功能GPU量产,估值105亿,完成IPO辅导规模化落地阿里+快手+联发科股东,SV100/SG100双线量产IPO进度不确定
象帝先伏羲A0(5nm)2026Q1量产,性能接近RTX 2070天钧系列已出货,伏羲刚量产5nm工艺突破,国产图形GPU稀缺标的曾濒临解散,资金链脆弱
砺算科技7G100(6nm)2026年3月发售即断货,A轮估值35亿首批订单交付,消费级需求旺盛全自研TrueGPU架构,消费级GPU稀缺标的累计融资<6亿元,零营收
芯动科技风华3号2025年9月发布,自盈利,不依赖融资已签约规模采购200+次先进工艺流片经验,RISC-V集成产品发布时间晚,仍需市场验证
登临科技Goldwasser系列量产,已获数万片订单多行业规模化落地GPU+架构,国内首个规模化落地通用GPU传2026年赴港IPO,尚无正式确认
芯瞳半导体第二代GB2062已量产,第三代GB3000计划2026Q3流片小规模出货,年营收5078万元大胜达5.5亿元入股,信创GPU第二梯队净资产为负,资不抵债

架构师判断:第三梯队中,砺算科技象帝先 最值得关注——前者是中国唯一专注消费级图形GPU的厂商(7G100断货说明市场存在真实需求缺口),后者以5nm伏羲架构实现了国产图形渲染GPU的工艺突破。但两者均面临资金链紧张的共同困境——砺算累计融资不到6亿元,象帝先2024年因对赌失败一度濒临解散 [3904]。半导体行业是”烧钱”的游戏,没有足够的资本弹药,技术再好的团队也难以走到终点。

瀚博半导体登临科技 在第三梯队中相对稳健——瀚博估值105亿元、完成IPO辅导,全系列产品已量产;登临是国内首个实现规模化商业落地的通用GPU企业,GPU+架构兼容CUDA/OpenCL [4007]。两者有望在2026-2027年通过IPO跃升至第二梯队。

1.2.5. 梯队总览图

第一梯队(百亿营收 / 全栈能力)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
  华为昇腾(40%份额)  >>>  断层领先  <<<
  海光信息(¥143.77亿营收)  |  寒武纪(¥64.97亿营收,扭亏为盈)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

第二梯队(10-50亿营收 / 已上市或已过会)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
  ┌─────────────────────────────────────────────────┐
  │ GPU四小龙:沐曦 │ 摩尔线程 │ 壁仞 │ 天数智芯 │ 燧原   │
  │ 互联网系:  阿里平头哥(出货26.5万张)│ 昆仑芯(¥35-50亿) │
  │ 细分龙头:  景嘉微(信创GPU ~25%市占率)          │
  └─────────────────────────────────────────────────┘
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

第三梯队(营收<5亿 / 技术验证通过,商业化早期)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
  瀚博半导体 │ 象帝先 │ 砺算科技 │ 芯动科技 │ 登临科技 │ 芯瞳半导体
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

1.2.6. 分层背后的核心逻辑

1.2.6.1. 梯队跃迁的”三把钥匙”

从第三梯队跃升至第二梯队,需要 至少一款芯片量产且形成规模营收(>5亿元);从第二梯队跃升至第一梯队,需要同时拿到三把钥匙:

  1. 万卡集群的稳定交付能力——不是”点亮过”,而是”客户在跑生产任务”;
  2. 软件栈的”无感迁移”体验——让客户从NVIDIA迁移时适配周期压缩至1-2周以内;
  3. 经营性现金流的转正或接近转正——证明商业模式可持续,而非持续”烧钱换增长”。

以此标准衡量,第二梯队中尚无厂商完全满足上述三条。沐曦的营收规模最大、亏损收窄最快,但尚未实现万卡集群的稳定商业交付;摩尔线程的夸娥万卡集群已商业化落地,且2026年Q1实现单季归母净利润转正,但扣非净利润仍未转正、客户集中度过高 [3334]2026-2027年将是”三把钥匙”的争夺战

1.2.6.2. 两类”隐形准第一梯队”

阿里平头哥和昆仑芯的营收/出货量已接近第一梯队门槛,但被归入第二梯队的原因是:它们尚未证明在”脱离母公司输血”后仍能独立成长。平头哥的外部客户占比已超60%,昆仑芯正通过中国移动等大单加速外部化——两者一旦完成独立上市,将有资格进入第一梯队讨论。

1.2.6.3. “层级固化”趋势已现

2025-2026年的IPO潮加剧了层级固化——已上市企业获得了数十亿乃至上百亿的资本弹药(摩尔线程募资80亿元,沐曦募资39亿元,壁仞募资~54亿港元),而未上市企业(尤其是第三梯队)面临融资渠道收窄的困境 [3121]资本差距正在转化为研发投入差距,进而转化为技术和市场的差距——这是半导体行业”强者恒强”的底层逻辑。

1.2.7. 一个值得警惕的统计偏差

需要特别指出:“国产GPU”这个标签在统计口径上存在严重混淆。上述厂商中,严格意义上的”GPU”(具备完整图形渲染管线+通用计算能力)仅有摩尔线程、景嘉微、芯动科技、砺算科技、象帝先、芯瞳半导体等少数几家。华为昇腾、寒武纪、昆仑芯、燧原、登临走的是AI加速器/NPU路线,海光DCU、沐曦、壁仞走的是GPGPU路线(侧重通用计算,图形能力弱或缺失)。

如果剔除AI加速器和GPGPU,仅看严格意义上的”图形GPU”——国产厂商的合计市场份额可能不到整个”国产GPU/AI加速器”市场的5%。“国产替代”在图形渲染领域的真实进展,远逊于AI计算领域。这一问题将在后续章节中深入展开。

1.3. 最值得关注的公司名单

提炼最具投资价值和技术代表性的企业

在前述章节已系统性梳理了行业格局与分层逻辑,本章聚焦于 提炼最具投资价值和技术代表性 的企业。以下名单基于”商业化规模×技术壁垒×生态潜力×财务健康度”四维交叉筛选,而非简单按出货量或营收排序。

筛选逻辑:一家公司进入”最值得关注”名单,要么是已经在商业化上跑通了闭环,要么是在技术路线上具有不可替代的卡位价值,要么是两者兼有。纯粹的概念炒作和”PPT造芯”不在考虑之列。

1.3.1. 第一梯队:确定性最高的核心标的(5家)

这5家公司已具备规模化营收、明确的客户验证和相对清晰的成长路径,是当前国产GPU/AI加速器赛道中 确定性最强 的资产。

序号公司核心标签2025年营收上市状态入选理由
1华为昇腾国产AI芯片绝对龙头~$102.68亿(Bernstein估算)[6]非上市(华为体系内)2025年出货81.2万张,占国产份额49% [1];Bernstein预计2026年市场份额升至50% [4380];昇腾950系列已发布,FP16算力达1PFLOPS [4379];DeepSeek V4全面换装昇腾 [4382];字节跳动2026年采购订单超400亿元 [4384]
2海光信息CPU+DCU双轮驱动¥143.77亿(+56.92%)[4359]科创板(688041)国内唯一x86兼容CPU+类CUDA生态DCU,2025年归母净利润¥25.45亿,是国产算力芯片中 唯二持续盈利的公司 [4359];深算三号已量产,深算四号研发中 [4374]
3寒武纪首个盈利的纯AI芯片企业¥64.97亿(+453.21%)[4338]科创板(688256)上市以来首次全年盈利,归母净利润¥20.59亿 [4338];2026Q1营收¥29亿(+160%),净利润¥10亿(+185%)[4350];思元系列在运营商、互联网实现规模化部署,已与DeepSeek深度合作 [4382]
4昆仑芯百度系AI芯片+运营商市场突破~¥20亿+(2025年)[4495]港股交表(拟2027年IPO)[4513]中标中国移动2025-2026年AI推理服务器集采,三个标包分别拿下70%/70%/100%份额,十亿级订单 [4498];摩根大通预测2026年营收可达¥83亿 [4504];P800已点亮3万卡集群 [4506]
5阿里平头哥云芯一体+全栈自研未单独披露(真武系列累计出货56万片)[4527]非上市(阿里体系内)真武810E性能对标H20 [4517];真武M890已发布,144GB显存,性能为810E的3倍 [4519];外部客户超400家,覆盖小鹏、比亚迪、国家电网等 [4522];IDC数据显示2025上半年国产AI芯片份额第二 [4522]

架构师注:华为昇腾和平头哥的真正优势不在于单卡算力,而在于 系统级能力——从芯片到互联到框架到集群的全栈控制力。昇腾384超节点(384颗910C全对等互联,算力300PFLOPS)已在性能上接近NVIDIA GB200 NVL72的两倍 [4381]。这种”以系统补单点”的策略,是目前唯一能与NVIDIA在集群层面正面较量的国产方案。

1.3.1.1. 第二梯队:高成长性+高弹性的核心标的(5家)

这5家公司已实现产品量产和初步商业化验证,但尚未盈利或盈利不稳定。它们的共同特征是 技术路线差异化明显,一旦突破盈亏平衡点,市值弹性极大

序号公司核心标签2025年营收上市状态入选理由
6摩尔线程国产唯一全功能GPU¥15.05亿(+243%)[4417]科创板(688795)国内唯一覆盖图形渲染+AI计算+视频处理的量产全功能GPU [39];2026Q1扭亏为盈,净利润¥2936万 [4434];2026年3月签下¥6.6亿夸娥智算集群大单 [4416];MUSA软件栈兼容CUDA生态
7壁仞科技算力指标突出+港股GPU第一股¥10.35亿(+207%)[4405]港交所(2026年1月上市)[4412]BR100系列FP16算力达1024 TFLOPS(纸面数据亮眼)[43];BIRENSUPA平台兼容CUDA,支持100+主流AI框架 [4398];已在中国电信千卡集群实现30天连续训练不中断 [4398];2025年推出国内首个光互连超节点”光跃LightSphere X” [4398]
8沐曦CUDA兼容度最高+AMD团队2022-2025Q1累计¥11.17亿 [4419]科创板(688802,2025年12月上市)[4446]核心团队来自AMD,对GPGPU架构和ROCm生态理解最深 [46];曦云C600已量产,C700研发中(投资¥20.4亿)[4445];MXMACA软件栈对CUDA兼容度在国产GPGPU中最高 [48]
9天数智芯训练+推理双量产先行者¥5.40亿(2024年,CAGR 68.8%)[4467]港交所(09903,2026年1月上市)[4462]国内首家实现训练与推理通用GPU量产的企业 [4472];天垓Gen3预计2026Q1量产,智铠系列专攻推理 [4472];2025H1营收¥3.24亿(+64.2%),毛利率56.6% [4469];累计出货超5.2万片,服务290家客户 [4469]
10燧原科技腾讯深度绑定+推理优先¥9.90亿(2025年)[4537]科创板IPO过会 [4538]腾讯贡献2025年营收的83.79% [4543];预计2026年上半年即可追平2025年全年收入 [4536];预计最快2026年实现合并报表盈利 [55];云燧系列推理芯片在性价比上具备竞争力

投资人视角:第二梯队的5家公司中,摩尔线程已于2026Q1实现盈利拐点,是最接近”越过盈亏线”的一家 [4434]。壁仞和燧原的营收增速极快但亏损额仍大(壁仞2025年亏损超百亿 [56]、燧原2025年亏损¥11.64亿 [4537]),需密切关注毛利率走势和经营性现金流转正时间点。沐曦和天数智芯的CUDA兼容路线在短期迁移成本上占优,但长期面临NVIDIA专利和生态封锁的风险。

1.3.1.2. 第三梯队:高壁垒利基市场+特殊卡位(5家)

这些公司营收规模不大,技术路线不”主流”,但在特定领域拥有不可替代的卡位价值。

序号公司核心标签2025年营收上市状态入选理由
11景嘉微军用GPU唯一标的+信创桌面GPU¥7.2亿(+54.41%)[4475]创业板(300474)国内唯一军用飞机图显模块GPU供应商,JM5400占据军用市场绝大部分份额 [4479];JM11系列通用GPU已流片,向AI算力延伸 [4477];定增募资¥42亿用于高性能通用GPU [4480];但2025年归母净利润亏损¥1.65亿,高研发投入侵蚀利润 [57]
12瀚博半导体全功能GPU+视频编解码未公开(2025年估值¥105亿)[4660]IPO辅导中(中信证券)[4655]核心团队来自AMD,CEO钱军曾主导AMD首颗7nm GPU量产 [4656];SG100为国产唯一7nm全功能GPU,支持渲染+AI+视频编解码”三位一体” [4651];累计融资超¥25亿,股东含阿里、快手、中网投 [4663]
13登临科技GPU+异构架构+边缘推理未公开未上市(获中网投独家投资)[4615]自主创新的GPU+架构,在兼容CUDA的前提下实现3倍能效优势 [4618];Goldwasser系列已在安防、交通、金融、电力等行业实现规模化商业落地 [4623];是国内首个实现规模商业落地的GPU企业 [4612]
14砺算科技纯图形渲染GPU+6nm尚未产生营收(2026年3月首发)[4685]东芯股份控股(688110)[4687]首款6nm全自研GPU”7G100”于2026年3月正式发售,对标NVIDIA RTX 4060 [4681];从指令集到计算核心完全自主设计,TrueGPU天图架构 [4681];累计融资约¥5.28亿,仅为国际巨头单款GPU研发投入的1/20 [4679];是国产图形渲染GPU赛道最纯正的标的
15芯原股份GPU IP授权+ASIC定制¥31.52亿(+35.77%)[4606]科创板(688521)唯一不直接卖芯片但深度参与GPU产业链的公司:拥有自主GPU IP、NPU IP、VPU IP等6大类处理器IP [4609];2026年1-4月新签订单¥45.16亿,AI算力相关订单占比超85% [4610];NPU IP已被91家客户用于140余款AI芯片,全球出货近2亿颗 [4601]

架构师注:砺算科技是国产GPU赛道中最值得关注的”异类”——它几乎是唯一一家真正从零开始做图形渲染GPU的公司(而非AI加速器贴GPU标签)。7G100从回片到量产仅用不到一年 [4677],效率极高。但营收为零、估值¥35亿 [4676],商业化的万里长征才刚开始。景嘉微的军用GPU壁垒极高,但向AI算力延伸的路径尚不清晰。

1.3.1.3. 特别关注:需持续跟踪的高风险/高不确定性标的

公司状态核心风险关注理由
象帝先2024年8月爆发解散危机,2025年2月完成数亿元融资”续命” [4591];计划2026年完成股份制改造并冲刺IPO [4585]对赌失败、欠薪、多起诉讼、经营连续性存疑 [4588]基于Imagination IP的GPU路线有一定技术积累,若”起死回生”成功,存在困境反转可能
芯瞳半导体2024年营收¥5078.5万,净利润-¥4899.6万 [4633];大胜达拟投¥5.5亿获22.98%股权(二期¥2.5亿需等第三代GPU流片成功才支付)[4636]资不抵债(所有者权益-¥1966.97万 [4634]),商业化规模极小,严重依赖外部输血信创桌面GPU赛道稀缺标的,创始团队源自西邮2009年组建的国内首支GPU研发团队 [4638]
瑞芯微/全志/晶晨SoC内置GPU/NPU,非独立GPU芯片公司与独立GPU赛道关联度低在端侧AI推理(智能家居、AIoT、边缘计算)场景中,SoC内置NPU可能比独立GPU更经济,需关注其对部分边缘GPU市场的替代效应

1.3.1.4. 关键观察维度

对于上述公司,投资人应持续跟踪以下核心指标(而非仅看营收增速):

  1. 毛利率走势:壁仞毛利率从76.4%降至31.9%(从定制化转向标准化销售)[27],沐曦、天数智芯毛利率在50-65%区间。毛利率低于40%意味着产品差异化不足,可能陷入价格战。

  2. 客户集中度:燧原对腾讯的销售占比高达83.79% [4543],昆仑芯虽中标中国移动大单但外部客户占比仍需提升。客户过度集中是独立GPU公司的”阿喀琉斯之踵”。

  3. 研发投入与营收之比:摩尔线程2025年研发投入¥13.05亿,占营收86.68% [4424]——这既是技术决心的体现,也是盈利压力的来源。

  4. 供应链可替代性:所有7nm及以下制程的国产GPU均面临台积电断供风险。华为昇腾已转向SMIC N+2,但其他厂商的先进制程替代方案尚不明确。

  5. 软件生态开发者数量:华为昇腾400万开发者 [4389]、海光依托ROCm生态——这是最难以短期追赶的壁垒,也是未来淘汰赛的核心变量。

1.4. 关键技术与商业结论

总结制约产业发展的核心瓶颈、技术路线分歧及未来走向

1.4.1. 制约产业发展的四大核心瓶颈

国产GPU/AI加速器产业的瓶颈并非单一维度,而是 “HBM—先进封装—制程—软件生态”四重约束 的叠加。这四个瓶颈相互耦合,形成”木桶效应”——任一短板都将限制整体竞争力。

1.4.1.1. 瓶颈一:HBM——“人有我无”的最致命短板

HBM(高带宽存储器)是AI大芯片的”粮仓”,直接决定显存带宽和容量。中国至今无法规模量产HBM,构成国产AI芯片的 最大供给约束 [4772]

指标国际水平(2025-2026)国产水平差距
主流产品HBM3E(1.0-1.2 TB/s)HBM2小批量试产落后约1代
单堆栈容量24-36GB(HBM3E)8-16GB(HBM2)约50%
带宽819 GB/s-1.2 TB/s仅达国际水平65%35%差距
成本基准高出40%性价比劣势
  • 长鑫存储(CXMT) 2025年Q3完成HBM2流片,2025年底向华为交付16nm制程HBM3样品,预计 2026年Q2实现HBM3量产,年产能约200-300万堆栈,仅够25-30万颗昇腾910C使用 [5071]
  • 长江存储旗下的武汉新芯启动HBM产线建设,目标月产能3000片(12英寸)以上 [5078]
  • 中国在管制大门关闭前累计囤积约 1,300万堆HBM战略库存(以HBM2E为主),可支撑2025-2026年上半年 [4793]
  • 国产HBM整体落后全球领先水平2-3年以上,HBM3E至少要到2027年才能量产 [5081]

关键判断:HBM是”人有我无”的卡脖子环节,其突破进度将直接决定华为昇腾910C/950系列的量产规模,进而影响整个国产替代节奏。2026年长鑫HBM3量产是关键拐点,但初期产能仅够支撑华为一家。

1.4.1.2. 瓶颈二:先进封装——产能缺口最大的瓶颈

高性能AI芯片依赖CoWoS类2.5D封装将GPU与HBM集成。台积电垄断全球CoWoS产能(2025年底月产能约7-8万片,2026年底达9-13万片),其中NVIDIA独占超60% [5050]。国产先进封装产能仅为台积电的 5-10%

厂商2026年产能规划良率定位
长电科技类CoWoS 0.5-0.8万片/月75-80%全球第三,XDFOI平台
通富微电2,000片/月大陆唯一能量产HBM3封装
盛合晶微目标月产数万片(年倍增)华为深度绑定,承接昇腾订单
  • 长电科技2025年先进封装营收270亿元,占公司总营收近七成 [5052]
  • 通富微电与AMD深度绑定,是目前大陆唯一能量产HBM3封装的企业 [5052]
  • 盛合晶微IPO募资50.28亿元,其中48亿元投向三维多芯片集成封装项目 [5055]

死结:HBM颗粒本身尚未量产,先进封装又依赖HBM颗粒才能实现2.5D集成,两者形成 “双重卡脖子”。这意味着即使国产GPU设计出来,也可能面临”无HBM可用、无封装可封”的困境。

1.4.1.3. 瓶颈三:制程——被”锁死”在7nm的长期约束

中芯国际N+2(等效7nm)是国产GPU的制造主力,但与国际先进制程存在约1-2代差距:

指标2025年2026年
N+2(7nm)良率突破90%,稳定量产产能持续提升
N+2月产能约3.5万片/月约7万片/月(翻倍)
N+3(5nm)良率仅33%(Q1),年底约40%+爬坡中
N+3成本比台积电同等工艺高40-50%维持劣势
  • 中芯国际N+2工艺良率已突破90%,实现稳定量产 [5572]
  • N+3(5nm)工艺采用DUV多重曝光技术,良率仅33%,成本比台积电高40-50% [4752]
  • 中芯国际2025年资本开支约81亿美元,2026年预计维持相近水平 [5474]
  • 台积电2025年已量产2nm(N2),2026年推进N2P,中芯国际差距约2-3代 [5032]

架构师判断:无EUV光刻机的情况下,中芯国际通过DUV多重曝光实现5nm级生产,但成本高、良率低。这意味着国产GPU在制程上 至少被锁死在比台积电落后1-2代的水平,直至国产EUV突破。好消息是,7nm对于AI推理芯片已足够——NVIDIA H20(对华特供版)本身也是阉割产品,制程差距在推理场景中并非决定性因素。

1.4.1.4. 瓶颈四:软件生态——追赶时间远超硬件的”死亡循环”

软件生态是国产GPU与NVIDIA之间 最难弥合的差距,且呈现”死亡循环”特征:开发者少→框架优化慢→性能差→用户流失→开发者更少 [4730]

维度NVIDIA CUDA国产最佳水平差距倍数
开发者数量400万+国产社区月活<5%>20x
支持AI模型数23,000+华为CANN约160+>100x
生态积累年限19年(2006起)华为CANN 4年(2021起)~15年
沐曦MXMACA注册用户15万人规模差距显著
  • CUDA生态从2006年开始建立,华为2018年才发布AI计算框架MindSpore,2021年才推出CANN [4720]
  • 沐曦MXMACA软件栈截至2025年10月注册用户仅15万人 [4858]
  • 一位AI企业技术负责人坦言:“我们不会轻易更换GPU供应商,因为基于CUDA开发的应用迁移成本太高,仅测试适配就需要数月时间” [5446]

关键判断:软件生态追赶所需时间远超硬件追赶。硬件可以”大力出奇迹”,但生态建设需要开发者社区、工具链、文档、开源项目的长期积累。未来3-5年,软件生态的成熟度将决定哪些厂商能活下来。


1.4.2. 技术路线分歧:兼容还是自研?

国产AI芯片产业已形成两大技术阵营,围绕”兼容CUDA vs 自研生态”展开根本性路线之争 [4701]

1.4.2.1. 两大阵营对比

维度CUDA兼容路线自研路线
代表厂商摩尔线程、沐曦、海光DCU华为昇腾、寒武纪、昆仑芯
核心策略通过自研软件栈在API层兼容CUDA,降低迁移成本构建完全自主的编程模型与生态
迁移成本极低(摩尔线程MUSIFY自动转换90%+语法)高(需重写代码,1-3个月适配周期)
长期风险跟随CUDA,始终”慢半拍”;英伟达EULA限制转译层生态封闭,开发者门槛高,推广慢
核心优势快速商业化,客户”无感迁移”完全自主可控,不受制裁影响
创始人背景张建中(前NVIDIA)、陈维良(前AMD)华为内部、寒武纪陈天石(中科院)

1.4.2.2. 路线分歧的核心争论

兼容派逻辑:“先求生存,再图发展。“CUDA生态拥有400万开发者、数万个模型,兼容是”站在巨人肩膀上” [5246]。华安嘉业投资负责人总结:“国产GPU在起步阶段兼容现有生态更容易发展,但长期还是要摆脱兼容思路,发展自有核心技术。” [4691]

自研派逻辑:“兼容就是永远跟随。“华为轮值董事长徐直军在2025全联接大会上明确表态:“我们投这么多钱兼容CUDA生态,而且CUDA现在也不能随便用,都是过去的版本。如果哪天CUDA生态兼容不了怎么办?从长远来考虑的话,要把生态构建起来。” [4741]

1.4.2.3. 路线收敛趋势

架构师判断:两条路线正在实质性地 双向收敛

  • 兼容派在”去CUDA化”:摩尔线程明确声明MUSA”与CUDA无任何依赖关系”,是自主研发、拥有全部知识产权的架构 [4953]
  • 自研派在”开放化”:华为开源CANN、实现”CUDA代码无修改迁移至昇腾平台” [4999];寒武纪开源大模型推理引擎vLLM-MLU [4710]
  • 底层架构趋同:国产GPU大部分厂商实质上都选择”面向AI训练/推理的矩阵+向量混合架构”,与英伟达GPU架构发展路径最终收敛的形态一致 [5432]

终极判断:未来3-5年,行业不会形成”纯CUDA兼容”或”纯自研”的单一格局,而是走向 “自研架构 + CUDA兼容层 + 开源生态” 的混合模式。差异化将更多体现在垂直场景(推理/训练/图形)和生态绑定深度上,而非底层指令集。


1.4.3. 未来走向:2026-2028关键时间线与预判

1.4.3.1. 2026年:拐点之年

事件影响
华为昇腾950PR(Q1)/950DT(Q4)发布算力达1PFLOPS,互联带宽提升至2TB/s,算力密度较910C提升50%+ [5582]
长鑫HBM3量产(Q2预期)缓解HBM瓶颈,但产能仅够25-30万颗昇腾
沐曦C600量产(H1),C700流片(H2)从”可用”到”好用”的关键产品迭代
英伟达H200获批对华出口对国产GPU形成新的竞争压力 [5592]
大摩预测:华为以50%份额成国内Top1,英伟达降至8%市场格局根本性逆转 [4733]
摩尔线程Q1营收同比增速>150%,沐曦Q1亏损大幅收窄头部企业加速盈利拐点 [5676]

1.4.3.2. 2027-2028年:淘汰赛白热化

  • 价格战:中高端GPU单价预计从3万元/颗降至约1.5万元/颗(2027年),价格战将加速淘汰缺乏差异化能力的中小厂商 [4819]
  • 盈利分水岭:沐曦预计2026年H2单季盈利,2027年全年盈利;摩尔线程预计2027年盈利(含政府补助)[5424]
  • 并购加速:政策端已通过”并购六条""科创板八条”铺路,2026年5月科创板406亿元半导体并购案过会,标志着行业整合进入快车道 [5415]
  • 格局初定:预计2028年形成”华为(40-50%)+ 3-5家头部GPU厂商(合计30-40%)+ 英伟达残余(<10%)“的稳定格局。

1.4.3.3. 核心商业结论

结论一:全功能GPU路线是”最难的窄门”,但也是”最宽的护城河”。 摩尔线程是唯一真正走全功能GPU路线(图形渲染+AI计算+科学计算)的国产厂商,这条路对技术、资金、生态要求极高,但一旦走通,将形成类似NVIDIA的”三位一体”壁垒——竞争对手难以在任何单一维度上全面超越。目前其游戏性能仅约GTX 1060-RTX 2060水平 [5196]。“花港”架构算力密度提升50%,效能提升10倍,支持FP4至FP64全精度 [5622]

结论二:ASIC/NPU路线的”天花板”在推理,不在训练。 华为昇腾凭借达芬奇架构和全栈能力在训练市场占据主导,但ASIC架构的通用性不足是内在缺陷——华为已意识到这一点,昇腾910D增加了SIMT模块,向GPGPU方向靠拢 [5636]。寒武纪、昆仑芯在推理场景的性价比优势显著,但切入训练市场需要更大规模的软件投入。

结论三:CUDA兼容是”过渡策略”,不是”终极方案”。 兼容CUDA可以快速降低迁移成本、抢占市场,但长期来看,英伟达随时可能收紧EULA限制转译层,且跟随策略无法建立真正的技术壁垒。厂商需要在兼容过渡期内(约3-5年窗口期)完成自有生态的构建,否则可能沦为”二等公民”。

结论四:HBM+先进封装突破是产业”解锁”的关键。 2026年长鑫HBM3量产和国产先进封装良率提升,将决定华为昇腾950系列、沐曦C700、壁仞下一代产品能否大规模出货。如果HBM瓶颈无法突破,国产GPU将在”纸面性能优秀但实际供货不足”的困境中徘徊。

结论五:市场容得下3-5家,容不下15家。 当前国产GPU赛道超过15家规模参与者,但2024年没有一家市占率超过1%(除华为外)[5422]。随着IPO资金到位,2026年起各家同步放量,可能出现”价跌量升”的洗牌。预计到2028年,仅3-5家能实现稳定盈利并持续迭代,其余厂商将被并购或退出。

结论六:智算中心需求足以支撑头部企业,但存在”潮汐风险”。 全国已建成万卡智算集群42个,智能算力规模超1590 EFLOPS。中国移动规划到2028年底全国产智能算力规模突破100 EFLOPS [5402]。需求端确定性高,但若2027-2028年AI大模型训练需求增速放缓或技术路线转向(如推理需求占比大幅提升),可能导致GPU供给过剩,加速行业洗牌。

2.5.1.5. 小结:重新审视“国产GPU”的称谓

本报告在前述章节中,为表述方便,沿用了行业通用说法“国产GPU”。但从本节的严格技术分析出发,需要旗帜鲜明地给出以下判断:

  1. 中国的“GPU替代”实质上是“AI加速器替代”:除摩尔线程、景嘉微、海光DCU外,所有厂商的真实产品属性均为AI加速器。这不影响它们在AI场景中的价值,但意味着它们天然不能覆盖NVIDIA近一半的营收来源(游戏+专业可视化+Omniverse)。

  2. “GPU”标签是一种不精确但有效的营销语言:在中国市场,“GPU”一词天然携带“能与NVIDIA竞争”的暗示力,AI加速器厂商主动挂上“GPU”标签,是对资本故事和客户心智的现实妥协。投资者分析师需清醒识别这一包装。

  3. 华为昇腾的“异类”路径:尽管是AI加速器,但昇腾通过自研达芬奇架构+全栈CANN软件+固件+编译器+部署工具链一体的垂直整合,其生态壁垒已接近全功能GPU的强度。它是唯一一家以AI加速器身份构建了接近GPU级生态的公司,因此在后文分析中将其单独归为“AI加速器旗舰”级别。

  4. 未来的演化走向:部分AI加速器厂商(如壁仞、沐曦)正在下一代产品中尝试恢复部分图形能力,希望从“AI加速器”升级为“GPGPU”,以获得更大的市场空间。这一转型的技术难度和软件工程量极其巨大,应审慎评估。

一句话总结本小节的核心价值:在看任何一家国产“GPU”公司的投资价值时,首先问自己——它到底是一块会算矩阵乘法的石头,还是一块真正能画画、能算数、还能装进你游戏机里的万能芯片?这个问题的答案,将定义它未来十年的市场边界。

3. 厂商全景图

2.4. GPU与AI专用加速器的技术差异

从架构、可编程性、微架构层面区分图形渲染GPU、GPGPU、ASIC加速器

如果说前一个节讲的是“为什么国产GPU火了”,那本节要回答的是另一个更根本的问题:“这些公司做的到底是不是GPU?” 答案不在商业计划书里,而在芯片的晶体管层面的设计决策中。从架构师视角看,GPU与AI专用加速器本质上是两种生物——前者从图形渲染“长出来”的通用并行处理器,后者是为矩阵乘法“定制”的领域特定架构(DSA)[9070]。理解这一差异,需要从渲染管线、计算核心组织和可编程性光谱三个维度做一次“解剖学”对比。

2.4.1. 渲染管线:GPU的“基因烙印”

任何一块全功能GPU的芯片上,都必然会留下图形渲染的“基因烙印”——固定功能硬件管线。现代GPU虽然早已演化为统一着色器架构,但其物理电路中仍保留着大量专为图形处理设计的硬连线逻辑,这些是AI加速器绝对不会拥有的。

固定功能单元的“遗产” 图形渲染管线本质上是一个将三维场景转换为二维像素的流水线,其核心步骤包括:顶点处理、图元装配、光栅化、像素着色、纹理映射和最终输出[9161]。在早期GPU中,每个阶段都由独立的硬件单元执行,形成“像素渲染管线 = 像素着色单元(PSU)+ 纹理贴图单元(TMU)+ 光栅化输出单元(ROP)”的铁三角[9156]。尽管可编程着色器(顶点/像素/几何着色器)的引入让GPU摆脱了纯固定功能,但光栅化器、ROP、TMU等单元至今仍以固定功能硬件的形式存在,因为它们在面积、功耗和性能上远优于可编程实现[9172]

具体而言:

  • ROP(Render Output Unit):负责像素混合、深度/模板测试、最终像素输出到帧缓冲[9040]。它是画面输出的“最后一公里”,直接影响帧率,而AI加速器完全不需要这一步骤。
  • TMU(Texture Mapping Unit):负责纹理采样、过滤、缩放和旋转,将二维图像贴合到三维物体表面[9205]。在统一着色器架构中,TMU与可编程着色器共享缓存和调度[9216],但其硬件仍是高度专用的。
  • Rasterizer(光栅化引擎):将图元(三角形)转换为屏幕像素片段[9162]。这一过程涉及大量固定功能的插值和扫描转换逻辑。
  • Display Engine、Video Codec:显示控制器和硬件编解码器同样是图形/视频输出所必需,AI加速器卡片通常不具备。

这些单元的存在,意味着全功能GPU的芯片面积中有15%~25%被AI加速器完全不需要的电路占据。换句话说,AI加速器可以将这些晶体管预算全部用于矩阵计算单元,从而在相同制程和功耗下获得更高的AI算力密度。这便是为什么“AI加速器”在纯矩阵运算场景下效率远高于GPU的根本原因之一。

从固定管线到统一着色器:GPU的自我进化 GPU进化史上最关键的转折点,是2006年G80架构引入的统一着色器模型 [9087]。这一模型将顶点、像素、几何着色器统一为通用的流处理器(SP),使得所有计算资源可以动态分配,极大提升了可编程性和利用率。然而,这并未消除固定功能硬件,而是让可编程着色器与固定功能单元协同工作——光栅化、纹理映射和输出混合仍由专用硬件完成,而着色器程序则运行在SIMT核心上。这种“可编程着色器 + 固定功能硬件”的混合架构,正是GPU区别于AI加速器的核心特征 [9172]

2.4.1.1. 计算核心组织:SIMT vs. 脉动阵列

如果说渲染管线差异是“外观”,那么计算核心的微架构差异就是“骨骼”。GPU和AI加速器在并行计算模型上的分野,直接决定了它们的通用性、效率和编程范式。

GPU的SIMT:灵活但“臃肿” NVIDIA GPU采用单指令多线程(SIMT)执行模型,32个线程被捆绑为一个warp,在同一时钟周期内执行同一条指令 [9101]。每个CUDA Core拥有独立的寄存器文件,可以独立寻址。关键特性是:warp内部的线程可以“有条件地分叉”(branch divergence),虽然这会导致性能损失,但确实允许程序员编写任意复杂的控制流代码 [9101]。此外,GPU的流多处理器(SM)内部包含warp调度器、大容量寄存器文件、共享内存、L1缓存和特殊函数单元(SFU)等,这些组件为通用计算提供了极高的灵活性,但也消耗了大量晶体管面积和功耗 [9225]

AI加速器的脉动阵列:极简高效 以Google TPU、华为达芬奇架构的3D Cube、寒武纪MLU为代表的AI加速器,核心计算单元普遍采用脉动阵列(Systolic Array)结构 [8979]。以TPU v1为例,其核心是一个256×256的脉动阵列,包含65,536个乘法累加器(MAC)[8991]。数据以“波浪”方式在阵列中流动,每个MAC单元完成运算后将结果传递给相邻单元,无需反复访问寄存器文件或共享内存 [9105]。这种设计几乎消除了传统GPU架构中大量的控制逻辑、寄存器文件访问和缓存层次开销,从而在矩阵乘法场景下实现极高的计算密度和能效比 [9225]

一个形象但不精确的比喻:SIMT模型像一支“可以各自拐弯的阅兵方阵”(每个士兵可以执行不同的分支,但代价是效率下降);脉动阵列则像“传送带上的流水线工人”(数据流过,每人只做一件事,极致高效但无法应对指令流分叉)。这正是为什么GPU能跑Photoshop、虚幻引擎、PyTorch和SQL查询,而TPU基本只能跑TensorFlow。

2.4.1.2. 可编程性光谱:从“瑞士军刀”到“手术刀”

如果用一个维度来区分GPU和AI加速器,那一定是 可编程性光谱。从最通用到最专用的计算架构谱系可以清晰地展示这种取舍 [9049]

CPU(最通用)→ GPU/GPGPU → FPGA → NPU/ASIC(最专用)
  灵活性递减 →→→→→→→→→→→→→→→→→→→ 效率递增
  • CPU:可以运行任何程序,但AI计算效率最低。
  • GPU/GPGPU:以CUDA为代表的编程模型,支持任意并行算法,在灵活性和效率之间取得平衡 [9030]。现代GPU还集成了张量核心(Tensor Core),专门加速矩阵乘加运算,形成“SIMT + 专用单元”的异构混合体 [9029]
  • FPGA:可重配置硬件逻辑,适合原型验证和低延迟场景,平衡了灵活性和效率 [9187]
  • NPU/ASIC:固定功能的矩阵乘法引擎,效率最高但灵活性最低 [9191]。例如,TPU专为张量运算设计,牺牲了通用性 [8983]

关键权衡:GPU的通用性以“浪费晶体管”为代价——大量die面积用于控制逻辑、调度器和缓存,这些对纯矩阵乘法是“无效开销” [9225]。而AI加速器的专用性以“牺牲灵活度”为代价——一旦AI模型架构发生根本性变化(如从CNN到Transformer再到未来的新架构),ASIC可能出现“结构性失效” [8983]。这种权衡也解释了为何许多国产AI芯片企业早期侧重端侧NPU,却在大模型时代面临适配困难:决策层对可编程性与通用性的重视不足,导致架构在更广泛的应用场景中平均性能平庸 [8967]

2.4.1.3. 国产阵营中的“物种分化”

这一技术差异直接映射到国产厂商的技术路线选择上。根据对图形固定功能硬件的保留程度,可以清晰划分:

  • 全功能GPU(如摩尔线程、景嘉微):保留完整图形管线(ROP/TMU/Rasterizer)+ SIMT核心 + 张量计算单元,覆盖图形渲染和AI计算 [8998]
  • GPGPU(如海光DCU、天数智芯、沐曦曦云系列):保留SIMT核心和张量计算,但去除图形固定功能管线,专注于AI训练与HPC。沐曦明确采取“先GPGPU、后图形GPU”的渐进路线 [8961]
  • AI专用ASIC/NPU(如华为昇腾、寒武纪、燧原):完全无图形能力,采用自研DSA架构(如达芬奇3D Cube [9248])或脉动阵列,目标极致AI效率。

需要特别指出,华为昇腾的达芬奇架构是典型的DSA:其AI Core由Cube Unit(矩阵乘)、Vector Unit(向量运算)和Scalar Unit(标量控制)分离设计,每个周期可完成4096次MAC运算 [9248],并使用软件管理的片上buffer而非硬件自动管理的cache [9255]。这种设计在AI推理场景下能效比极高,但通用性受限,这也是传闻华为考虑转向GPGPU路线的技术背景 [9256](需进一步核验)。

2.4.1.4. 小结:技术路线决定商业模式

从架构差异回到产业判断,核心结论可以概括为:

  • 全功能GPU的技术壁垒远高于AI加速器,但市场天花板也更高(同时覆盖AI计算、图形渲染、HPC、桌面/工作站等)。
  • AI加速器在特定场景下效率更高,但其市场空间被限定在AI推理和训练,且存在“结构性过时”风险。
  • 国产厂商中,真正的“全功能GPU”路线者寥寥——多数厂商实际上是GPGPU或AI加速器公司,只是借用了“GPU”这一市场认知度更高的标签。

这一判断将直接影响后续章节对每家公司的归类、评价和前景预测。

2.5. “GPU公司”与“AI加速器公司”的实质区别

解释为何多数厂商实为AI加速器而非全功能GPU,及其对商业模式的本质影响

在国产算力芯片的讨论中,“GPU”一词常被泛化为“AI芯片”的同义词,但这种混用掩盖了深层的架构差异与商业模式分野。从技术本质与产业现实出发,将一家公司定性为“GPU公司”还是“AI加速器公司”,直接决定了对其技术壁垒、可编程性、软件生态、市场边界乃至长期生存概率的判断。本节从 历史演化、架构本质、可编程性、图形能力、生态壁垒 五个维度,厘清两者的实质区别。

2.5.1. 历史演化:从“图形加速”到“通用并行计算”

理解当代GPU与AI加速器的分野,必须回到GPU的演化源头。

GPU的基因 源于图形渲染。1999年NVIDIA GeForce 256首次引入硬件变换与光照(T&L)引擎,标志着图形流水线从固定功能向可编程的质变[9272]。此后,可编程着色器(Shader)的引入使GPU具备了执行非图形计算的可能性。2006年CUDA的发布是决定性拐点——NVIDIA将GPU从图形独占的计算设备,重构为通用并行计算平台[9274]。这一定位被浓缩为“GPGPU”(General‑Purpose GPU)概念:硬件本质上仍保留完整的图形流水线,但通过软件栈暴露通用计算接口[9281]

AI加速器的基因 则完全不同。它起源于一种观察:深度学习的核心运算(矩阵乘法、卷积、激活函数)在GPU上执行时,大量图形专用硬件(光栅化单元、纹理单元、显示控制器)处于闲置状态。为什么不设计一款 只做AI运算、舍弃图形 的芯片?Google的TPU(2016年)是这一思路的原型——以脉动阵列(Systolic Array)为核心,专为TensorFlow矩阵运算优化,完全不具备图形能力[9276]。此后,Habana Gaudi、AWS Trainium、Graphcore IPU等均延续这一理念:以AI工作负载为唯一靶标,以张量计算阵列替代图形流水线[9284]

可以这样理解:GPU如同一个“大学教授”,他精通高等数学(并行计算),也擅长美术(图形渲染),虽然数学研究是他的强项,但他从未丢掉画笔和画板。AI加速器则是一个“专业数学家”,他只做数学研究,不画画,工具和工作室布置都只为数学服务,做数学的效率可能更高,但你让他画幅素描,他完全无能为力。两者的出身决定了能力的根本不同。

这个历史分岔对中国产业意义重大:绝大多数国产“GPU”初创公司,从一开始就选择的是AI加速器路线。它们从未设计、也无意设计图形渲染流水线。

2.5.1.1. 架构本质:全功能GPU vs. AI专用加速器 vs. GPGPU

要准确判断一家公司的真实属性,不能看它自称什么,而要看其芯片 微架构 中包含了什么、舍弃了什么。以下是三者的关键区分:

维度全功能GPUGPGPUAI加速器
图形流水线完整硬件:光栅化单元(ROP)、纹理单元(TMU)、几何引擎、显示控制器、视频编解码与全功能GPU相同,完整保留图形硬件。无ROP、无TMU、无显示输出,甚至无视频编解码
着色器核心SIMT架构,支持顶点/像素/几何/计算着色器与GPU相同通常为张量计算阵列(脉动阵列或类TPU架构),无传统着色器概念
计算核心CUDA Core / Tensor Core共存,统一调度与GPU相同以矩阵乘加(MAC)阵列为主,部分加通用矢量单元
可编程性高。支持CUDA/OpenCL/ROCm等完整并行编程模型与GPU相同中到低。通常为图级别编译,算子级可编程性受限
图形APIDirectX / Vulkan / OpenGL 完整支持完整支持不支持。零图形能力
显示输出有。带显示接口(HDMI/DP)通常无。纯PCIe加速卡,无显示输出
虚拟化GPU虚拟化支持(vGPU/MIG)支持通常不支持或有限支持
典型产品NVIDIA RTX 5090、AMD RX 7900、摩尔线程MTT S4000NVIDIA A100/H100(数据中心GPU仍保留完整图形硬件)、海光DCU华为昇腾910B、寒武纪MLU590、Google TPUv5、AWS Trainium2
核心任务图形渲染 + AI + HPC + 编解码AI训练/推理 + HPC + 图形渲染纯AI训练/推理

关键洞察:NVIDIA的数据中心旗舰产品(A100/H100/B200)虽然在数据中心场景下很少被用于图形渲染,但在硬件层面 从未移除图形流水线。这是一种深层次的架构选择——它保留了对图形API的完整支持,使同一芯片可以服务于渲染农场、数字孪生、Omniverse等场景。而国产AI加速器从第一天起就认定“图形是多余的”。

由此可以给出一个严格的技术定义

若一款芯片 物理上不存在 光栅化单元(ROP)、纹理单元(TMU)、显示控制器中的任意两项,且 软件栈不支持 DirectX/Vulkan/OpenGL等标准图形API,则它是 AI加速器,而非GPU或GPGPU。

按此标准,中国市场上 严格意义上的全功能GPU/GPGPU公司仅有三家

  • 摩尔线程(完整图形流水线 + DirectX/Vulkan/OpenGL全栈支持 + 显示输出)
  • 景嘉微(图形GPU起家,支持OpenGL/Vulkan/部分DirectX,近年拓展AI计算)
  • 海光DCU(兼容ROCm生态的GPGPU,但图形能力有限,可视作“弱图形GPGPU”)

其余所有公司——华为昇腾、寒武纪、壁仞、天数智芯、燧原、沐曦、百度昆仑芯、阿里真武等——本质上都是AI加速器

2.5.1.2. 可编程性:这才是真正的胜负手

“全功能GPU”与“AI加速器”最本质的差异不在于算力数值,而在于 可编程性。这是被产业界反复低估的核心变量。

GPU的可编程性源于其SIMT(单指令多线程)编程模型。程序员通过CUDA或类似工具链,可以自由地编写任意并行程序,操作任意内存层级,实现任意计算图。这种灵活性意味着GPU可以应对:

  • 训练中不断演进的模型架构(从Transformer到MoE到Mamba再到尚未出现的新范式)
  • 推理中的各种优化(FlashAttention、KV Cache压缩、投机解码等算子级创新)
  • HPC场景中任意偏微分方程求解、分子动力学模拟等非AI负载
  • 任何CUDA生态中已有的海量算子与库

AI加速器的可编程性则受限于其“图编译器”范式的天花板。多数AI加速器的编程模型是:框架导出计算图→编译器将图映射到硬件→硬件执行。这意味着:

  • 凡是编译器未预先支持的算子,无法高效执行(甚至完全无法执行)
  • 新的算法创新(如混合专家模型的门控网络、新激活函数、动态形状推理)需要编译器团队快速跟进,形成“算法‑编译器‑硬件”的串行依赖锁链
  • 一旦脱离预定义的算子集边界,性能急剧退化(CPU回退),用户体验断崖式下跌[9284]

国内AI芯片领域的核心问题,用一句话总结就是:决策层对可编程性与通用性的重视不足,过多资源投入到特定场景的优化中,虽能在宣传数据上呈现亮眼表现,但一旦拓展至更广泛的应用场景,平均性能便显得平庸[9266]

商业后果是致命的

  1. 客户移植成本爆炸:迁移模型到AI加速器需要大量手工算子补全和调试,人力成本远超硬件采购成本
  2. 生态锁定风险:客户担忧花巨资适配的代码,后一代芯片架构变更后全部失效
  3. 创新时滞:从学术界的算法创新到国产AI加速器可用,间隔可能长达12‑24个月,而NVIDIA平台当月即可适配

2.5.1.3. 图形能力:看似无关,实则关键

许多观点认为,“在AI训练推理场景中完全不需要图形能力,舍弃图形可以节省芯片面积和功耗”。这一技术逻辑在纸面上成立,但在产业维度上存在三个容易被忽视的反驳:

第一,图形能力是软件生态的“入场券”。NVIDIA的CUDA生态之所以无孔不入,部分原因在于它横跨游戏、专业可视化、科学计算、AI等多个领域,开发者基数巨大。图形与AI共用同一架构,意味着高校教学、个人开发者、游戏工作室、渲染农场等场景培育的CUDA开发者,自然可以向AI计算迁移。国产AI加速器放弃了图形市场,就等于放弃了培育开发者基数的最大蓄水池。

第二,图形能力是产品形态灵活性的来源。全功能GPU可以同时覆盖:游戏卡、渲染工作站、VR/AR、数字孪生、AI服务器等多种形态。而AI加速器只能做AI加速卡,产品线单一,市场天花板受限于AI算力需求增速。

第三,当前可能不重要的图形,未来可能变得重要。AI+渲染(NeRF、3D Gaussian Splatting)、AI+物理仿真、Omniverse数字孪生等新兴负载,要求AI计算与图形渲染在 同一芯片、同一显存 内完成。全功能GPU可以关机后原地变身渲染卡,这是AI加速器无法做到的。

2.5.1.4. 商业模式根本分歧

“GPU公司”与“AI加速器公司”在技术底色上的差异,最终映射为截然不同的商业模式:

维度GPU公司(如NVIDIA/摩尔线程)AI加速器公司(如昇腾/寒武纪/燧原)
市场规模游戏+专业可视化+AI+HPC,四重市场叠加,全球市场规模>2,000亿美元仅AI/HPC市场,全球约500‑800亿美元(且集中于头部客户)
客户分散度数亿游戏玩家+数百万开发者+成千上万数据中心客户仅几十到几百家云厂商、运营商、大模型公司
收入基数延迟游戏/渲染业务提供稳定现金流,抗周期能力强完全依赖AI算力投资周期,BIS制裁缓急影响极大
软件生态需自建完整的驱动、API、SDK、开发者社区体系,单个GPU固件代码量超千万行只需为AI框架(PyTorch/TF)提供算子级别的后端支持,软件工程量较少
供应链风险相同。制程、HBM、先进封装依赖相同相同
技术护城河图形+AI+HPC三栖,每个领域都需要独立技术积累,跨界极难仅AI加速,护城河相对窄;架构易被模仿
定价权强。全功能GPU提供多维度的差异化价值弱。同质化严重,只能拼算力/TCO,价格战压力大
上市对标NVIDIA(市值3万亿美元+)/ AMD无直接对标。更像是“算力模块”提供商

可以做一个略带讽刺但不失真实的商业推演:一家AI加速器公司即便在性能上追平了同期NVIDIA数据中心GPU的AI算力,如果无法提供图形能力,它永远不可能进入游戏、专业可视化、自动驾驶渲染等市场,其营收天花板仅有NVIDIA的1/4到1/3。而从市场规模的“分母”来看,绝大多数国产AI加速器公司的远期估值,天生就缺少了GPU公司所拥有的多重期权。

3.1. 厂商总览表

通过表格形式快速展示各厂商成立时间、总部、技术路线、产品、融资状态、商业化阶段等核心信息

以下表格覆盖中国大陆主要 GPU/GPGPU/AI 加速器芯片设计厂商,按 技术路线与市场定位 分层排列。信息截至 2026 年 6 月 18 日,所有数据均来自公开资料。标记”⚠“表示信息来自非官方渠道或需进一步核验。


3.1.1. 表 3-1:国产 GPU / AI 加速器厂商全景总览(一)—— 基础信息与技术路线

序号公司名称英文名成立时间总部创始人/核心人物核心团队背景技术路线是否严格 GPU代表产品
1华为昇腾Huawei Ascend2018年(产品线发布)深圳徐直军(战略推动者)华为自研达芬奇架构团队自研达芬奇(Da Vinci)AI 加速架构❌ AI 加速器Ascend 910C / 950PR / 950DT
2阿里平头哥T-Head (Alibaba)2018年9月上海张建锋(阿里云创始人)达摩院芯片团队 + 中天微整合自研 GPGPU 并行计算架构⚠ 偏 GPGPU真武 810E / M890
3寒武纪Cambricon2016年北京陈天石、陈云霁中科院计算所孵化自研 MLU 架构(AI 专用)❌ AI 加速器思元 590 / 690
4海光信息Hygon2014年(DCU 2018年启动)天津海光团队(AMD 技术授权背景)AMD Zen 架构授权 + 自研 DCUx86 CPU + GPGPU(ROCm 兼容)❌ GPGPU深算二号 / 深算三号(DCU 8300)
5摩尔线程Moore Threads2020年10月北京张建中(James Zhang)前 NVIDIA 全球副总裁 + 中国区总经理,团队大量来自 NVIDIA自研 MUSA 架构(全功能 GPU)✅ 全功能 GPUMTT S5000 / S4000 / 华山 / 庐山
6壁仞科技Biren Technology2019年上海张文(董事长兼CEO)前商汤总裁 + 海思/AMD/英伟达资深工程师自研 GPGPU 通用架构❌ GPGPUBR100 / 壁砺 166M / BR20X
7沐曦MetaX2020年9月上海陈维良(CEO)核心团队平均近 20 年 AMD GPU 研发经验全栈通用 GPU(CUDA 兼容)✅ 全功能 GPU曦云 C500 / C600
8天数智芯Iluvatar CoreX2016年上海蔡全根(董事长)中美两地团队,早期来自 AMD/英伟达自研通用 GPU 架构✅ GPGPU天垓 100 / 天垓 Gen3 / 智铠 Gen3u
9燧原科技Enflame2018年3月上海赵立东(CEO)、张亚林(CTO)前 AMD 中国研发中心负责人自研 DSA 架构(不兼容 CUDA)❌ AI 加速器邃思 S60 / L600
10昆仑芯Kunlunxin2011年(百度内孵化,2021年独立)北京欧阳剑(CEO)百度 AI 芯片团队 + 行业招聘自研 XPU 架构❌ AI 加速器昆仑芯 3 代 P800 / M100 / M300
11景嘉微Jingjia Micro2006年4月长沙曾万辉、喻丽丽夫妇国防科大背景,军用图形显控起家自研 GPU 统一渲染架构✅ 图形 GPUJM9 系列 / JM11 / JM1100 / 景宏系列
12砺算科技Lisuan Tech2021年南京宣以方(CEO)⚠团队来自 AMD/英伟达/Imagination,平均 15+ 年 GPU 经验自研 TrueGPU”天图”架构✅ 图形 GPULX 7G100 / 7G106
13芯动科技Innosilicon2006年北京/武汉/珠海敖海全球 IP 定制 + GPU 研发团队Imagination IP 授权 + 自研 RISC-V 融合✅ 全功能 GPU风华 1 号 / 2 号 / 3 号
14瀚博半导体VastAI2018年12月上海钱军(CEO)、张磊(CTO)前 AMD 高管及资深 GPU 工程师自研 VUCA 统一计算架构(全功能 GPU)✅ 全功能 GPUSV100 / SG100 / 载天 VA1L / VA12
15象帝先Xiangdixian2020年9月重庆唐志敏”龙芯一号”创始人、海光信息缔造者Imagination DXD IP 授权 + 自研神农架构✅ 图形 GPU天钧系列 / 伏羲 A0 / 天驭
16登临科技Denglin Technology2017年⚠上海李建文(CEO)⚠来自英伟达/AMD GPU 架构团队自研 GPU+(Minsky 片内异构)❌ AI 加速器Goldwasser UL / L / XL
17芯瞳半导体Sietium2019年厦门(原西安)创始人未公开GPU 研发为主,85% 为研发人员自研 GPU 统一渲染架构✅ 图形 GPUGB2062 / CQ2040 / GB3000(在研)
18芯原股份VeriSilicon2001年上海戴伟民(董事长兼CEO)全球领先的 IP 授权 + 芯片定制服务GPU IP 授权(Vivante/Vitality 架构)+ GPGPU-AI IP⚠ GPU IP 供应商Vitality GPU IP / GPGPU-AI IP / Coral NPU IP
19格兰菲Glenfly2020年⚠上海兆芯集团孵化兆芯生态体系,图形图像 + AMOLED 驱动自研 GPU 架构✅ 图形 GPUArise-GT10C0
20龙芯中科Loongson2010年(前身 2001年)北京胡伟武(董事长兼CEO)中科院计算所,自主 LoongArch 指令集自研 GPGPU + 集成 GPU IP(LG200)⚠ GPGPU 起步9A1000(已流片)/ LG200 GPU IP
21奕斯伟计算ESWIN Computing2019年北京王东升(董事长)京东方创始人,西安奕斯伟材料体系RISC-V CPU + NPU + 疑似 GPU IP 授权⚠ 未确认RISC-V 边缘计算芯片

:华为昇腾、阿里平头哥并非独立 GPU 公司,而是集团内部业务线;“是否严格 GPU”指是否具备完整图形渲染管线(含硬件光栅化、纹理单元、ROP 等),❌ 表示以 AI 计算为核心、无图形硬管线。


3.1.2. 表 3-2:国产 GPU / AI 加速器厂商全景总览(二)—— 市场与商业化

序号公司名称目标市场上市/融资状态商业化阶段主要客户最新公开进展(截至 2026.06)
1华为昇腾大模型训推、智算中心、政企 AI华为内部业务线,未独立融资🟢 大规模量产字节跳动(400亿+)、腾讯、阿里、中国移动910C 量产,950PR 推出,2026 年 AI 芯片营收预计 120 亿美元 [10393]
2阿里平头哥阿里云 AI 实例、自动驾驶、大模型训推阿里全资子公司,未独立融资🟢 大规模量产阿里云、小鹏、比亚迪、国家电网、中科院真武 810E 累计出货 56 万片,M890 发布,年化营收超百亿 [11171]
3寒武纪大模型训推、智算中心、互联网科创板 688256;2025 年定增 40 亿元🟢 规模化出货字节跳动(最大客户)、阿里、中国移动(4.3 亿订单)2025 年营收 64.97 亿(+453%),思元 690 研发中,市值峰值 6541 亿 [9939]
4海光信息AI 训推、HPC、信创服务器科创板 688041;2022 年 IPO 募资 108 亿🟢 规模量产字节跳动、腾讯、阿里、百度、中国移动2025 年营收 143.76 亿(+57%),深算三号量产,深算四号在研 [10674]
5摩尔线程大模型训推、图形渲染、智算集群科创板 688795;2025 年 IPO 募资约 80 亿🟢 规模量产前五大客户集中度高(单一最大客户贡献 57%)2025 年营收 15.05 亿(+243%),2026Q1 首次单季盈利,花港架构发布 [10335]
6壁仞科技大模型训推、智算中心港股 06082.HK;2026 年 IPO 募资 55.8 亿港元🟢 规模量产中国移动、中国电信、中兴通讯、上海 AI 实验室2025 年营收 10.35 亿(+207%),BR20X 预计 2026H2 上市 [9803]
7沐曦大模型训推、图形渲染(规划中)科创板 688802;2025 年 IPO 募资 42 亿🟢 规模量产新华三、瑞芯智能、多地智算集群2025 年营收 16.44 亿(+121%),C600 预计 2026H1 量产,拟港股二次上市 [10814]
8天数智芯大模型训推、边缘推理港股 09903.HK;2026 年 IPO 募资 37 亿港元🟢 规模量产字节跳动(5 万颗大单洽谈中)、340+ 客户2025 年营收 10.34 亿(+92%),四代架构路线图发布 [11046]
9燧原科技大模型推理、训推一体科创板 IPO 过会(2026.06.15),拟募 60 亿🟢 规模量产腾讯(占营收 83.79%)、美图2025 年营收约 9.9 亿,S60 出货 10 万卡,L600 预计 2026H2 量产 [10798]
10昆仑芯大模型推理、智算中心、政企 AID 轮融资 21 亿,投后估值 210 亿;港股/科创板双线 IPO🟢 规模化出货百度、中国移动(十亿级订单)、招商银行、南方电网2025 年营收预计 35-50 亿,M100 计划 2026 年初上市 [35]
11景嘉微军用图形显控、信创桌面、轻量 AI创业板 300474;2024 年定增 38.33 亿🟡 小批量出货航空工业、党政信创(GPU 份额 >40%)2025 年营收 7.2 亿(+54%),JM11 小批量出货,JM1100 发布,CH37 点亮 [1359]
12砺算科技消费级显卡、专业图形、云渲染战略融资约 8.3 亿,投后估值 40 亿+;未上市🟡 初批量产京东首发(消费级)、企业用户(专业卡)7G100 6nm 量产,2026.06 京东 618 首发,微软 WHQL 认证 [11209]
13芯动科技数据中心 GPU、智算、医疗显示Pre-IPO,估值约 300 亿;未上市🟡 小批量供货风华 3 号发布会近十家签约客户风华 3 号发布(112GB+ 显存),LPDDR6 IP 签约头部客户 [11248]
14瀚博半导体AI 推理、云渲染、边缘计算Pre-IPO 轮数亿元,估值约 105 亿;科创板辅导完成🟡 规模出货几乎覆盖所有头部互联网公司IPO 辅导完成,正申报科创板,2025 年大规模商业化落地 [11967]
15象帝先图形渲染、端侧 AI、AIPC数亿元 B 轮+战略融资,估值约 150 亿;2026 年启动 IPO🟡 小批量出货超云、中移物联网、统信、新华三伏羲 A0 5nm 量产,2026 年启动股改 IPO,历史被执行记录待清理 [1822]
16登临科技边缘 AI 推理、智慧城市、智算中心多轮融资,估值约 46 亿;拟 2026 年赴港 IPO🟡 批量出货多家互联网/政企客户(数万片出货)2026 年 1 月新高通创投加持,最快 2026 年赴港 IPO [12172]
17芯瞳半导体信创图形、工业显示、边缘推理大胜达 5.5 亿战略投资,投后估值约 18 亿;未上市🟡 小批量出货飞腾/龙芯/统信/麒麟生态,信创领域GB3000 在研(7nm),大胜达对赌协议绑定,2025 年营收 5078 万 [11146]
18芯原股份GPU IP 授权、芯片定制科创板 688521;拟港股二次上市🟢 IP 授权成熟全球 300+ 客户,GPU IP 累计出货 20 亿+颗Vitality 架构 GPU IP 发布,GPGPU-AI IP 落地汽车/边缘 [7536]
19格兰菲信创桌面、商业显示、通用计算A 股辅导备案中(2025 年 2 月启动);未上市🟡 小批量出货信创领域,兆芯生态协同Arise-GT10C0 28nm 量产,处于 IPO 辅导期 [12370]
20龙芯中科CPU+GPU 自主配套、信创入门级独显科创板 688047;已上市🟠 研发/流片阶段龙芯 CPU 生态用户9A1000 已流片(2025.09),采用高自主工艺,等待回片测试 [12348]
21奕斯伟计算RISC-V 边缘计算、AIoTD 轮超 30 亿,累计 7 轮超 130 亿;未上市🟡 边缘芯片出货未详细披露2023 年 D 轮完成,持续布局 RISC-V AI 计算 [12330]

3.1.3. 表 3-3:国产 GPU / AI 加速器厂商全景总览(三)—— 核心评价

序号公司名称核心评价
1华为昇腾🏆 国产 AI 算力绝对龙头。自研达芬奇架构 + CANN/MindSpore 全栈生态,910C 是当前唯一大规模部署的国产训练芯片,2026 年 AI 芯片营收预计达 120 亿美元。核心优势在于华为全栈能力(芯片→服务器→网络→框架→云)和政企渠道。短板在于受美国制裁导致的先进制程受限、HBM 供应依赖国产替代。当前国产替代的最优解,但供应链风险不可忽视。
2阿里平头哥🔥 国产 GPU 出货量黑马。真武 810E 累计出货 56 万片,是国产 GPU 中出货量最高的产品之一。核心优势在于阿里云自用场景的快速验证迭代 + 外部客户(小鹏、比亚迪)的突破。真武 M890 单卡性能为 810E 的 3 倍。最大变量是阿里云能否持续对外部客户开放,以及平头哥是否会独立融资。
3寒武纪📈 国产 AI 芯片第一股,2025 年绝地翻盘。思元 590 性能约达 A100 的 80%,2025 年营收暴增 453% 至 65 亿元。摘 U 后实现全年盈利。最大风险是客户高度集中(前五大客户 94%+),字节跳动订单占比极高,一旦大客户转向自研或华为,业绩将剧烈波动。技术扎实,但客户结构亟待多元化。
4海光信息🏦 国产 x86 CPU + GPGPU 双芯唯一量产企业。深算系列兼容 ROCm 生态,客户覆盖字节跳动、腾讯、阿里、百度等所有头部互联网公司。2025 年营收 143.76 亿,是国产 GPU 相关上市公司中营收最高者。但深算架构源自 AMD 授权,自主迭代能力受地缘政治制约。短期业绩确定性最强,长期技术自主性存疑。
5摩尔线程🎮 国产”全功能 GPU”第一股,最接近 NVIDIA 路线的挑战者。MUSA 架构自研 + MUSIFY CUDA 迁移工具,MTT S5000 已实现万卡集群部署。2025 年 12 月科创板上市,花港架构发布,三款新芯片(华山/庐山/长江)规划 2026 年量产。核心优势在于全功能 GPU 定位(渲染+AI 一肩挑)。最大短板是持续亏损(累计亏损约 59 亿)和客户集中度极高(前五大 98.29%)。路线正确,但盈利之路仍长。
6壁仞科技💪 国产 GPU 算力性能标杆,制裁下的”求生者”。BR100 曾是国产算力最强 GPU(770 亿晶体管),但被列入实体清单后失去台积电代工。被迫转向中芯国际 N+2 工艺 + Chiplet 方案的壁砺 166M 仍在量产。2026 年港股上市。核心优势在于技术实力和 2048 卡光互连超节点交付。最大风险是先进制程和 HBM 获取受限,BR20X 能否在限制下实现代际性能跨越。技术底蕴深厚,但制裁是长期天花板。
7沐曦🚀 国产 GPU 商业化增速最快的公司之一。曦云 C500 对标 A100/A800,2025 年营收 16.44 亿(+121%),C600 基于全国产供应链,预计 2026H1 量产。核心优势在于 AMD 出身的全栈 GPU 团队 + CUDA 兼容生态。已启动港股二次上市。路线清晰,但需证明 C600 在国产供应链下的实际性能。
8天数智芯🔄 国产 GPU 四小龙中”训练+推理”双量产最早的企业。2025 年营收 10.34 亿,推理业务暴增 238%。2026 年发布四代架构路线图,声称天枢架构已超越 H200。字节跳动正洽谈 5 万颗芯片大单。核心优势在于产品线完整(天垓训练+智铠推理+彤央边缘)。路线图激进,需验证天枢架构超越 H200 的实测数据。
9燧原科技🔗 腾讯深度绑定,DSA 路线代表。自研 DSA 架构不兼容 CUDA,S60 推理芯片累计出货 10 万卡。2026 年 6 月科创板过会。核心优势在于腾讯既是第一大股东(20.26%)又是第一大客户(83.79% 营收),生态协同紧密。最大风险是客户极度集中,腾讯自研芯片进展将直接影响燧原命运。DSA 路线在推理场景性价比高,但生态护城河窄。
10昆仑芯🏛️ 百度体系孵化,国产 AI 芯片”隐形冠军”。2025 年营收预计 35-50 亿,外部客户占比过半。中国移动十亿级订单中标,市场地位仅次于华为昇腾。XPU 架构针对推理优化,M100 计划 2026 年初上市。百度分拆 + A+H 双线 IPO 是最大看点,商业变现能力在国产 AI 芯片中仅次于华为昇腾。
11景嘉微🛡️ 国产 GPU”老兵”,军用图形显控绝对龙头。从 JM5400 到 JM1100,五代架构迭代,专注图形渲染而非 AI 训练。2025 年营收 7.2 亿,定增 38 亿押注高性能 GPU。核心优势在于党政军信创 GPU 份额超 40%,军用飞机图形显控模块几乎垄断。核心短板是 AI 算力薄弱,与华为昇腾/寒武纪不在同一赛道。从图形 GPU 向 AI 延伸的转型成败,决定未来 5 年天花板。
12砺算科技🎯 国产消费级 GPU 破局者,全自研架构 + 微软 WHQL 认证。7G100 性能对标 RTX 4060,6nm 台积电工艺,是国内首款全自研 GPU 架构商业化落地的消费级显卡。2026 年 618 京东首发。核心优势在于 TrueGPU 全自研架构 + 微软 WHQL 认证(国内首家)。最大风险是台积电供应链依赖、消费级 GPU 市场天花板有限、AI 能力尚弱。图形 GPU 路线的稀缺标的,需关注 AI 双模芯片进展。
13芯动科技🌐 国产 GPU 的”瑞士军刀”——IP 定制 + GPU 双轮驱动。风华 3 号 112GB+ 超大显存 + RISC-V + CUDA 双架构融合,78 TFLOPS FP32 算力。估值约 300 亿,Pre-IPO 阶段。核心优势在于全球 300+ 客户 IP 定制经验和一站式芯片服务能力。GPU 芯片竞争力有待市场验证,但 IP 底座深厚。
14瀚博半导体🎬 AI 推理 + 云渲染双引擎,全功能 GPU 低调务实派。SG100 芯片 7nm 量产,VA1L/VA12 覆盖大模型推理。覆盖几乎所有头部互联网公司。核心优势在于 AI 推理 + 视频编解码 + 图形渲染的全功能定位。上市进度偏慢,需加速资本化以支撑研发投入。
15象帝先🔄 “绝地翻盘”的传奇 GPU 公司。2024 年因对赌失败濒临解散,2025-2026 年通过三轮融资复活。伏羲 A0 5nm 量产,是全球唯一量产 IMG DXD 架构 GPU。核心优势在于唐志敏的技术领袖地位 + 图形渲染差异化路线。最大风险是历史遗留问题(被执行记录)、资金链脆弱、商业化放量待验证。“生存者偏差”故事,但能否持续活着仍需观察。
16登临科技GPU+ 异构路线,能效比 3 倍于通用 GPU。Goldwasser 系列已数万片出货,高通创投持续加持。拟 2026 年赴港 IPO。核心优势在于 GPU+ 片内异构架构在边缘推理场景的能效比优势。避开训练主战场,深耕边缘推理利基市场,定位清晰但天花板较低。
17芯瞳半导体🔬 信创图形 GPU 细分赛道第二梯队。CQ2040 对标 GT1030,功耗仅 10W。GB3000 在研,目标对标 RTX 4070 Ti。大胜达 5.5 亿注资附带严格对赌。核心风险在于 GB3000 流片成败决定公司生死。“以小博大”的赌注,流片成功则跃升,失败则边缘化。
18芯原股份🧬 国产 GPU 生态的”卖水人”——GPU IP 授权龙头。Vivante GPU IP 累计出货超 20 亿颗,Vitality 架构支持 DirectX 12。GPGPU-AI IP 落地汽车和边缘服务器。核心优势在于 IP 授权商业模式的稳定性和广泛生态触达。不直接做 GPU 芯片,但几乎所有国产 GPU 公司都直接或间接受益于芯原 IP。
19格兰菲🏭 兆芯生态体系下的 GPU”拼图”。Arise-GT10C0 28nm,支持 DirectX 11,定位信创桌面和商业显示。IPO 辅导中。核心优势在于兆芯 CPU + GPU 的协同生态。技术代差明显(28nm vs 主流 7nm),但信创市场有其生存空间。
20龙芯中科🔧 CPU 自主生态的 GPU 补全者。9A1000 对标 AMD RX550,定位入门级独显和终端 AI 推理(32 TOPS)。采用高自主工艺流片。核心优势在于 LoongArch 自主指令集 + CPU+GPU 自主配套。GPU 起步最晚,但自主可控程度最高,适合信创特定场景。
21奕斯伟计算🌱 RISC-V 赛道巨头,GPU 布局尚不清晰。京东方创始人王东升领衔,累计融资 130+ 亿。目前公开披露的 GPU 相关业务有限,主要聚焦 RISC-V CPU + NPU 边缘计算。若未来发布独立 GPU 产品,将成为重要变量,但当前 GPU 属性弱。

3.1.4. 表 3-4:按技术路线和商业模式分类汇总

分类厂商特征
全功能 GPU(图形渲染 + AI 计算)摩尔线程、沐曦、瀚博半导体、芯动科技具备完整图形渲染管线 + GPGPU 通用计算能力,路线最接近 NVIDIA
纯图形 GPU(渲染为主)景嘉微、砺算科技、象帝先、格兰菲、芯瞳半导体专注图形渲染,AI 能力较弱或起步中,面向信创/消费/军工
GPGPU(通用计算,兼容 ROCm/CUDA)海光 DCU、天数智芯、壁仞科技专注并行计算,无图形硬管线,兼容 CUDA/ROCm 生态
AI 专用加速器(DSA/ASIC 路线)华为昇腾、寒武纪、燧原科技、昆仑芯、登临科技自研非 CUDA 架构,针对 AI 推理/训练优化,能效比高但通用性弱
GPU IP 供应商芯原股份不直接出货 GPU 芯片,授权 GPU IP 给其他芯片设计公司
CPU 厂商的 GPU 延伸龙芯中科、阿里平头哥CPU 厂商向 GPU 领域延伸,形成 CPU+GPU 自主配套
SoC 内 GPU/NPU 融合瑞芯微、全志、晶晨、奕斯伟计算在 SoC 中集成 GPU/NPU IP,面向端侧 AIoT,非独立 GPU 芯片

3.1.5. 补充说明

3.1.6. 关于瑞芯微、全志科技、晶晨股份

这三家公司是国产 AIoT SoC 芯片龙头,在 SoC 内部集成了 GPU 和 NPU IP,但 不生产独立 GPU 芯片

公司2025 年营收核心产品GPU/NPU 能力
瑞芯微44.02 亿元 [12291]RK3588 / RK3688自研 NPU(支持 3B 参数级端侧模型),ARM Mali GPU
晶晨股份~70 亿元(估算)智能机顶盒/电视 SoCARM Mali GPU,视频编解码为核心
全志科技~27 亿元(估算)智能应用处理器 SoCARM Mali GPU + 自研 NPU(1 TOPS 级)

它们在 端侧 AI 推理(机器人、智能座舱、AIoT)领域与部分 GPU 厂商存在间接竞争,但不属于独立 GPU 赛道。在 AI 大模型推理向边缘迁移的趋势下,这三家公司的 SoC 路线可能成为端侧 AI 推理的重要补充力量。

3.1.7. 关于飞腾、龙芯、兆芯与国产 GPU 生态

国产 CPU 六大厂商(鲲鹏、飞腾、海光、龙芯、兆芯、申威)与国产 GPU 的适配关系已基本打通:

  • 海光:CPU(x86)+ DCU(GPGPU)双芯协同,生态最完整
  • 龙芯:CPU(LoongArch)+ 自研 9A1000 GPU + LG200 GPU IP,自主程度最高
  • 兆芯:CPU(x86)+ 格兰菲 GPU,同体系生态
  • 飞腾/鲲鹏:ARM 架构 CPU,与景嘉微、摩尔线程、芯瞳等国产 GPU 已完成适配
  • 申威:SW-64 自主架构,GPU 适配仍以景嘉微为主

下一篇:厂商分类与生态位 —— 按技术路线和产业链角色进行深度归类与定位分析。

3.2. 厂商分类与生态位

按技术路线(全功能GPU、GPGPU、AI加速器、GPU IP、SoC融合)进行归类,并定位其在产业链中的角色

将国产GPU/AI加速器厂商按核心技术路线归类,可以形成五条清晰的分野:全功能GPU、GPGPU、AI专用加速器、GPU IP、以及SoC融合。本节的任务是将这一技术分类投射到产业地图上,厘清各厂商在产业链中的角色与生态位。

3.2.1. 技术路线分类总纲

技术路线核心特征图形固定管线计算模型典型代表
全功能GPU图形渲染+AI计算双全✅ 完整SIMT + 张量单元摩尔线程、景嘉微、象帝先、砺算、芯动、瀚博
GPGPU通用并行计算,去图形化SIMT + 张量单元海光DCU、天数智芯、沐曦、壁仞、登临
AI专用加速器矩阵计算极致优化,领域专用脉动阵列/自研DSA华为昇腾、寒武纪、燧原、昆仑芯、平头哥真武
GPU IP对外授权GPU核心IP视被授权方而定视架构而定芯原股份、Imagination中国
SoC融合GPU/NPU集成于应用处理器轻量级集成IP瑞芯微、全志、晶晨、飞腾、龙芯

关键洞察:五条路线并非互不相干。全功能GPU厂商天然具备向下覆盖GPGPU市场的能力(摩尔线程MTT S4000/S5000就是典型),而纯GPGPU厂商若想补齐图形能力,需回头补上ROP/TMU/Rasterizer等固定功能硬件和完整的图形驱动栈——这通常需要2-3代产品周期和数百人年的软件投入。因此,路线选择本质上是一个不可逆的战略决策

3.2.2. 全功能GPU阵营:图形基因的守护者

全功能GPU是国产阵营中最稀缺的物种,要求同时掌握图形渲染管线、SIMT通用计算、张量加速和完整的图形API驱动栈。目前国内真正具备此能力的厂商不超过5家。

阵营成员与生态位:

厂商架构来源最新制程图形API覆盖AI算力(峰值)生态位定位
摩尔线程自研MUSA未公开DX12/Vulkan 1.3/OpenGL 4.61024 TFLOPS (FP8, S5000)全场景GPU平台,唯一对标NVIDIA全栈
景嘉微自研JM系列未公开DX11/Vulkan 1.3/OpenGL 4.66 TFLOPS (FP32, JM11)信创桌面+云渲染,军用→民用拓展
象帝先Imagination DXD5nmDX12/Vulkan 1.3/OpenGL 4.6160 TFLOPS (FP32, 伏羲A0)高端图形渲染,光追+超分
砺算科技全自研天图6nmDX12 Ultimate/Vulkan 1.3融合AI推理消费级+专业级自研GPU
芯动科技Imagination→自研+RISC-V未公开DX12/Vulkan 1.2/OpenGL 4.678 TFLOPS (FP32, 风华3号)数据中心全功能GPU+IP
瀚博半导体自研VUCA7nm图形渲染(SG100)200 TOPS (INT8, SV100)云端渲染+AI推理双引擎

摩尔线程 是国内唯一在AI计算、图形渲染、游戏显卡、视频编解码四个维度同时对标NVIDIA的厂商。其MUSA架构已迭代至第五代“花港”,2025年发布的MTT S90游戏卡实测性能媲美RTX 4060 [12723]。在AI侧,S5000的DeepSeek R1推理性能达到H100约61% [12687]。2025年12月科创板上市后市值飙升,成为国产GPU赛道龙头 [12441]生态位:全栈平台型,类似于NVIDIA在中国市场的投影。

景嘉微 走“从专用走向通用”路线,JM5400→JM7200→JM9→JM11→JM1100,JM11系列已实现6 TFLOPS FP32、192 GPixel/s像素填充率,支持SR-IOV硬件虚拟化 [13058]。景宏系列AI加速卡填补了AI训练/推理空白 [12977]生态位:信创GPU核心供应商,在党政军市场有不可替代性。

象帝先 2024年一度解散,后获数亿元融资复活,2025年伏羲A0完成5nm流片验证,FP32算力160 TFLOPS,支持实时光追和超分,已适配《黑神话:悟空》[14029]生态位:高端图形GPU的潜力挑战者,但供应链高度依赖海外,商业化基础薄弱。

砺算科技 是国内唯一完全不依赖第三方GPU IP的图形GPU厂商,核心团队来自原S3 Graphics,具备原生DX12底层能力 [14652]。第一代天图架构融合图形渲染+AI推理,支持硬件光追,性能对标RTX 4060 [14662]。2025年7月芯片点亮,2026年3月正式发售 [14632]生态位:自研GPU IP的稀缺标的,更可能的价值兑现路径是被大厂并购或成为GPU IP供应商。

芯动科技 以高速接口IP起家,GPU路线从Imagination授权起步,到风华3号实现自研内核+RISC-V CPU的全国产底座,单卡显存112GB+、FP32算力78 TFLOPS,支持CUDA兼容 [14698]生态位:GPU基础设施供应商,其HBM3E/GDDR6X/UCIe Chiplet等高速接口IP的深厚积累是核心竞争力,GPU芯片是其IP能力的“展示窗口”。

瀚博半导体 从AI推理芯片SV100(DSA路线)起步,2023年推出SG100全功能GPU(7nm,集渲染+AI+视频于一体),在云手机、云游戏、云桌面等云端渲染场景形成差异化 [15146]。2025年完成DeepSeek适配并启动科创板IPO辅导 [15443]生态位:云端渲染+AI推理融合方案商。

3.2.3. GPGPU阵营:计算的“纯血派”

GPGPU厂商放弃图形渲染固定功能硬件,将全部晶体管预算用于SIMT通用计算核心和张量加速单元,以换取更高的AI/HPC计算密度。这一选择使它们彻底放弃了消费级显卡、云游戏、数字孪生等图形市场。

阵营成员与生态位:

厂商架构最新制程软件生态策略代表产品峰值算力生态位定位
海光DCUAMD授权+自研7nm→5nmDTK+ROCm兼容,“类CUDA”256 TFLOPS (FP16, DCU 8200)信创HPC+AI训练,国产GPGPU出货量最大
天数智芯自研天垓系列7nm自研软件栈,兼容主流框架147 TFLOPS (FP16, 天垓100)通用GPGPU,覆盖训推全场景
沐曦自研XCORE7nm(C500)→国产(C600)MXMACA®,全面兼容CUDA1000 TFLOPS (FP8, C600)训推一体GPGPU,国产供应链
壁仞科技自研壁立仞7nm(台积电)BIRENSUPA,自研编程模型1000+ TFLOPS (FP16, BR100)大算力GPGPU,Chiplet技术
登临科技自研GPU+12nm硬件兼容CUDA/OpenCL512 TOPS (INT8, Goldwasser XL)软件定义异构,推理能效比

海光DCU 的独特优势在于技术兼容性:通过DTK+ROCm兼容实现“类CUDA”环境,CUDA代码迁移效率可达85%,迁移成本最低仅需15人天 [12747];商业上,海光信息2024年营收91.6亿元,DCU在运营商、金融等关键行业渗透率32% [12889]。深算系列已迭代至三号(5nm、512 TFLOPS目标),四号在研 [12884]生态位:信创GPGPU主供应商,但底层架构源头来自AMD,技术迭代自主性存在隐忧。

天数智芯 2026年1月首次系统性披露了以北斗七星命名的四代架构路线图:天枢(2025,超越H200)→天璇(2026,对标B200)→天玑(2026,超越Blackwell)→天权(2027,超越Rubin)[13686]。2026年1月港股上市,成为首家登陆港股的国产通用GPU企业 [13221]。2024年国内GPGPU出货排名第三,累计出货超5.3万片 [13650]生态位:GPGPU第二梯队领先者,港股上市后资金充裕,但品牌认知和客户规模仍落后于海光。

沐曦 2025年发布的曦云C600是国产GPGPU中首个宣称“全流程国产化”的产品——从IP设计到晶圆制造到封装测试 [13492]。FP8峰值算力1000 TFLOPS,144GB HBM3e,性能对标Hopper系列 [13502]。代价是卡间互联带宽略有下降、功耗提升 [13504]。2025年12月科创板上市 [13261]生态位:国产GPGPU供应链自主化先锋,在美国制裁持续收紧的背景下,这可能是长期出路。

壁仞科技 BR100以770亿晶体管、1074mm²双die、2.5D CoWoS-S封装,创下国产GPU芯片的多个“之最” [13148]。但2023年10月被列入美国实体清单后,台积电停止代工,壁仞被迫转向国产代工渠道 [13330]。2026年1月港股上市,2025年全年营收10.4亿元,同比增长207% [13454]生态位:大算力GPGPU的激进探索者,Chiplet技术路线在制裁后成为“沉重的遗产”,BR20X/BR200系列能否在国产供应链上实现是其生死线。

登临科技 的GPU+架构是国产GPGPU中最独特的存在:通过软件定义片内异构,在硬件层面兼容CUDA/OpenCL的同时,实现3倍以上的能效比优势 [14813]。第二代Knuth KS系列(KS20/KS38/KS58)单卡最高128GB显存,可单卡加载Qwen3 235B模型 [15521]。但第一代产品采用12nm成熟工艺,性能天花板明显 [15048]生态位:推理GPGPU的能效专家,在边缘推理和云端推理场景有独特优势。

3.2.4. AI专用加速器阵营:矩阵计算的“效率冠军”

AI专用加速器(DSA/NPU)是国产AI芯片中出货量最大、商业化最成熟的阵营。它们放弃图形渲染能力和SIMT通用编程模型,将所有晶体管预算用于最大化矩阵乘法吞吐量,在AI推理场景下每瓦性能和每美元性能远超GPU。

阵营成员与生态位:

厂商架构自研指令集软件框架最新旗舰生态位定位
华为昇腾达芬奇→SIMD/SIMTCANN+MindSpore910C (800 TFLOPS FP16)国产AI芯片绝对龙头,全栈自研
寒武纪MLUarch05NeuWare+Torch-MLU思元590 (345 TFLOPS FP16)云端训推一体,上市AI芯片第一股
燧原科技GCU-CARE驭算TopsRiderL600 (144GB, FP8原生)腾讯深度绑定,推理→训推一体
百度昆仑芯XPU-PXPU SDK+飞桨P800 (345 TFLOPS FP16/BF16)百度系,万卡集群,超节点
阿里平头哥自研PPU全栈自研真武810E (96GB HBM2e)阿里云自用+外部,出货数十万片

华为昇腾 是国产AI芯片中唯一具备“芯片→互联→集群→框架→应用”全栈能力的厂商。2025年9月公布三年路线图:950PR(2026Q1,1 PFLOPS FP8)→950DT(2026Q4)→960(2027Q4)→970(2028Q4)[12508]。2025年8月CANN全面开源,标志着昇腾从“硬件追赶”向“生态引领”的战略转折 [12834]。910B在2024年出货超64万片,占国产AI芯片市场23%份额 [13039]生态位:国产AI算力基础设施的定海神针,通过超节点技术弥补单芯片差距,最大风险在于先进制程受限和HBM供应瓶颈,但华为自研HBM(HiBL 1.0)将于950系列搭载,有望突破 [12513]

寒武纪 是国内AI芯片公司中“学术血统”最纯正的——源自中科院计算所,创始人为陈氏兄弟。2025年迎来业绩爆发:Q1营收11.11亿元(同比+4230%),H1营收28.81亿元,首次实现全年盈利 [12608]。思元590的TPP达4493,超过H20的2368 [12626]。核心客户字节跳动占2025Q1营收96.48% [12590]生态位:云端AI训推芯片的核心供应商,但高度依赖单一客户,思元690(在研,目标H100约80%)将是检验其长期竞争力的关键 [12587]

燧原科技 2024年做出“All In推理”的战略选择,暂停训练卡,年底在甘肃庆阳建成万卡推理集群 [13182]。2025年7月以L600(邃思400)重回训推一体市场,144GB显存、3.6 TB/s带宽、原生FP8,对标H20 [13607]。腾讯为最大客户(收入占比约70%+),深度参与6轮融资 [13165]生态位:腾讯系AI算力的首选供应商,独立性和DSA路线不兼容CUDA是其隐忧。

百度昆仑芯 2025年2月点亮国内首个自研万卡集群(P800),随后扩展至三万卡集群 [13541]。P800的FP16/BF16算力345 TFLOPS,超越H20的148 TFLOPS [13671]。2025年11月公布“五年五芯”计划:M100(2026)→M300(2027)→N系列(2029)[13725]。2025年营收预计35-50亿元,接近盈亏平衡 [13527]生态位:百度AI生态的算力基石+外部推理市场的新锐力量,已中标中国移动十亿级集采 [13560]

阿里平头哥真武 从2020年秘密立项,直到2025年9月央视《新闻联播》才“意外”曝光,2026年1月平头哥官网上线产品信息 [13879]。截至2025年底,总出货量达数十万片,超越寒武纪,在国产GPU厂商中领先 [13890]。2026年5月发布真武M890(性能为810E的3倍,144GB HBM),并公布V900(2027)、J900(2028)路线图 [14239]生态位:阿里云AI基础设施的“核武器”,走“谷歌TPU模式”——自研芯片+自用+有限外部销售,在国产阵营中可能仅次于华为昇腾。

3.2.5. GPU IP阵营:生态链的“水源地”

GPU IP是整条产业链最上游的环节,决定了有多少公司能够“站在巨人的肩膀上”进入GPU市场,也决定了国产GPU自主可控的“根”有多深。

芯原股份(VeriSilicon) 是中国最大的芯片设计IP供应商,也是国内唯一进入全球前十的IP公司。其GPU IP产品线涵盖从低功耗嵌入式到高性能计算的完整谱系,中国大陆绝大多数SoC厂商的GPU/NPU IP的核心来源。瑞芯微、全志、晶晨等头部SoC厂商的NPU均大量采用芯原IP [14904]生态位:国产GPU IP的核心供应商,其IP授权模式降低了GPU创业门槛,但也导致部分依赖芯原IP的厂商在架构自主性上存在隐患。

Imagination Technologies(中国) 作为英国GPU IP巨头,通过授权支撑了多家中国GPU厂商的起步:象帝先(盘古/伏羲架构基于Imagination DXD)、芯动科技(风华1号/2号基于Imagination BXT)。Imagination的DXD架构是全球唯一能与ARM Mali、Qualcomm Adreno在移动/嵌入式GPU领域竞争的第三方IP。生态位:中国GPU产业的重要“外援”,但地缘政治风险不可忽视,长期必须走向自研架构——这正是象帝先从盘古(Imagination)走向伏羲(DXD深度定制)再到神农(规划自研)的演进逻辑 [14001]

3.2.6. SoC融合阵营:GPU/NPU的“毛细血管”

SoC融合阵营的厂商不单独销售GPU芯片,而是将GPU/NPU IP集成到应用处理器中,面向智能终端、边缘计算、AIoT等场景。它们是国产GPU生态的“毛细血管”——虽然单颗芯片的GPU算力有限,但总出货量以亿计,构成了国产GPU最广泛的应用基础。

瑞芯微 以RK3588(8nm,6 TOPS NPU)为旗舰,2025年发布“贡嘎”协处理器系列(RK1820/RK1828,20 TOPS),标志着其从SoC内部的NPU走向独立的端侧算力加速器,可与RK3588等主控通过PCIe组合,形成“主控+协处理器”的算力叠加方案 [15333]。下一代RK3688(2026年,预计16+ TOPS NPU)将进一步冲击高端 [15482]生态位:边缘AI算力平台供应商,从0.2 TOPS到20 TOPS全覆盖,在机器人、智能座舱等新兴场景中占据先机。

晶晨半导体 以S905X5(6nm)成为业界首款6nm商用芯片,2025年出货近900万颗,预计2026年突破千万颗 [15342]。其NPU算力虽不高(1-5 TOPS),但凭借先进制程带来的功耗优势,在智能电视和机顶盒市场占据主导地位。生态位:消费电子AI SoC的全球竞争者,6nm量产经验为国产芯片供应链提供了宝贵验证。

全志科技 以A733(12nm,集成BXM-4-64 GPU,3 TOPS NPU)和T527(八核A55,2 TOPS NPU)等芯片,覆盖平板、AI眼镜、边缘计算等场景,V821已量产用于AI眼镜,出货近百万台 [15304]生态位:在AIoT和智能穿戴领域具备差异化优势,与瑞芯微形成互补竞争。

飞腾龙芯 作为CPU厂商,通过集成GPU和与国产独立GPU适配,构建“CPU+GPU”的国产计算平台。飞腾S5000C/D3000等已与摩尔线程、景嘉微等GPU完成适配,龙芯则走得更远——自研GPGPU核心LG100/LG200,9A1000专用GPGPU芯片已于2025年12月交付流片,9A2000规划中性能为9A1000的8-10倍 [14981]生态位:国产计算平台的集成者,龙芯的“CPU+自研GPGPU”路线对标Intel的“CPU+iGPU”模式,长期具备体系化竞争潜力。

3.2.7. 产业链全景定位图

                    ┌─────────────────────────────────────┐
                    │        GPU IP 层(上游水源)          │
                    │   芯原股份  │  Imagination中国        │
                    └──────────────┬──────────────────────┘
                                   │ IP授权
          ┌────────────────────────┼────────────────────────────┐
          │                        │                            │
    ┌─────▼──────┐          ┌──────▼──────┐            ┌───────▼──────┐
    │ 全功能GPU  │          │   GPGPU     │            │  AI加速器    │
    │            │          │             │            │              │
    │ 摩尔线程 ★ │          │ 海光DCU  ★  │            │ 华为昇腾 ★★★ │
    │ 景嘉微   ★ │          │ 天数智芯 ★  │            │ 寒武纪   ★★  │
    │ 象帝先     │          │ 沐曦     ★  │            │ 燧原科技 ★   │
    │ 砺算科技   │          │ 壁仞科技 ★  │            │ 昆仑芯   ★★  │
    │ 芯动科技   │          │ 登临科技    │            │ 平头哥   ★★  │
    │ 瀚博半导体 │          │             │            │              │
    └──────┬─────┘          └──────┬──────┘            └──────┬───────┘
           │                       │                          │
           └───────────────────────┼──────────────────────────┘
                                   │ 芯片供应
                    ┌──────────────▼──────────────────────────┐
                    │          SoC融合层(终端毛细血管)         │
                    │  瑞芯微 │ 全志科技 │ 晶晨 │ 飞腾 │ 龙芯  │
                    └─────────────────────────────────────────┘

                    ┌──────────────▼──────────────────────────┐
                    │          最终应用场景                     │
                    │  智算中心 │ 云服务 │ AI大模型 │ HPC │ 图形 │
                    └─────────────────────────────────────────┘

注:★数量表示该厂商在所属路线中的综合竞争力(三星为最高,未标星表示尚在早期阶段或数据不足)。

3.2.8. 关键生态位判断

  1. “全功能GPU是终点,但大多数人会在中途倒下”:全功能GPU同时覆盖图形、AI、HPC、视频四大场景,拥有最广阔的市场空间,但图形驱动的开发工作量是纯计算驱动栈的3-5倍,且需要多年的游戏/应用生态积累。选择GPGPU或DSA的公司,未来补齐图形能力所需的代价将远超当初“节省”的成本。

  2. “AI加速器的商业窗口期可能比想象的更短”:华为昇腾CANN全面开源 [12834] 和百度昆仑芯的“类CUDA”策略 [13552],正在模糊DSA和GPGPU之间的软件生态界限。未来3年,AI加速器阵营和GPGPU阵营的竞争将不再是“架构之争”,而是“生态之争”——谁拥有更大的开发者基数、更多的模型适配、更低的迁移成本,谁就能胜出。

  3. “GPU IP的自主可控,比GPU芯片的自主可控更重要”:芯原的GPU IP在国内SoC市场占主导地位,但其底层架构的自研程度仍需进一步核验。砺算科技的全自研TrueGPU天图架构是目前国产GPU IP中最具自主性的代表 [14654],但公司规模尚小。中国GPU产业真正的“卡脖子”不在芯片制造,而在GPU IP——如果无法从指令集层面实现自主可控,所有的“国产GPU”都只是不同程度的“二次开发”。

  4. “SoC融合阵营是即将爆发的‘暗线’”:随着端侧大模型(1B-7B参数)的快速普及,SoC内部的GPU/NPU正在从“配角”走向“主角”。瑞芯微的贡嘎协处理器和龙芯的9A1000 GPGPU,本质上都是在回应同一个趋势:边缘AI算力需求正在从“可选项”变为“必选项”。这条赛道上的竞争格局尚未固化,可能孕育出新的百亿级公司。

本节内容基于截至2026年6月的公开信息。国产GPU行业变化极快,部分公司的技术路线和产品状态可能在短期内发生重大变化。

4. 逐家公司深度分析

4.1. 华为昇腾

深度分析公司概况、团队、产品、技术特点、软件生态、商业化、财务、竞争力、短板、供应链风险、未来3年判断

定位:中国 AI 算力基础设施的绝对核心——从芯片到超节点再到百万卡集群的全栈自研方案。
核心判断:昇腾是中国唯一具备“全栈自主 + 大规模商业化 + 持续迭代”能力的 AI 加速器厂商,但制程与 HBM 的物理约束决定了其单芯片性能永远追不上 NVIDIA,只能通过系统级创新和规模效应在特定市场实现替代。


4.1.1. 公司概况

华为昇腾并非独立公司,而是华为内部昇腾计算业务线,芯片由海思半导体设计。昇腾 AI 芯片的起点是 2018 年 10 月华为全联接大会,徐直军正式发布昇腾 910 和昇腾 310,标志着华为以自研 达芬奇架构 全面进入 AI 芯片赛道 [17985]。昇腾业务线由 华为昇腾计算业务总裁张迪煊 负责端到端管理,昇腾芯片产品总经理为 王晓雷,达芬奇架构总架构师是 华为海思首席科学家廖恒博士 [18411]

昇腾计算体系包含四层全栈方案 [17997]

  • 芯片层:Ascend 系列处理器(达芬奇架构)
  • 芯片使能层:CANN(异构计算架构)
  • AI 框架层:MindSpore(昇思)
  • 应用使能层:Mind 系列工具链

截至 2025 年底,昇腾已汇聚 400 万开发者,发展 3,000+ 合作伙伴,孵化 6,700+ 行业解决方案 [18381]。华为 2025 年年报显示,计算产业“抓住人工智能机会”实现快速增长,集团总营收 8,809 亿元,研发投入 1,923 亿元(占营收 22%)[17344]


4.1.2. 创始团队和核心成员背景

昇腾团队的核心特征是 “华为体系 + 自研深度”。不同于国内多数 GPU 创业公司从 NVIDIA/AMD 挖角,昇腾依赖华为内部培养的芯片与软件人才,配合达芬奇这一真正自研架构,形成“从沙子到软件”的完全自主技术栈。核心成员包括:

角色姓名背景
战略推动者/最高决策者徐直军华为轮值董事长,1967 年生,博士,1993 年加入华为,同时担任海思半导体董事长 [18255]
昇腾计算业务总裁张迪煊负责昇腾 AI 产业端到端管理 [18411]
昇腾芯片产品总经理王晓雷负责昇腾芯片产品线 [18419]
达芬奇架构总架构师廖恒华为海思首席科学家,2019 年 Hot Chips 大会首次公开介绍达芬奇架构 [18431]
华为首席战略架构师党文栓深度参与昇腾芯片战略规划 [18438]
昇思 MindSpore 架构师苏腾浙江大学博士,MindSpore 超大规模 AI 技术负责人,近两年孵化了 20+ 大模型 [18358]
计算产品线总裁张熙伟负责鲲鹏、昇腾、欧拉、CANN 和昇思五大根技术 [18428]

4.1.3. 发展历程

时间里程碑
2018 年 10 月华为全联接大会 2018,发布昇腾 910 和昇腾 310,正式公布达芬奇架构 [17985]
2019 年 8 月昇腾 910 正式商用,7nm EUV(台积电 N7+),FP16 256 TFLOPS [18437]
~2020-2022 年受美国制裁,台积电断供,华为转向中芯国际(SMIC)N+1 工艺,推出昇腾 910B [18312]
2024 年 Q4昇腾 910C 样片发放,双 Die Chiplet 合封两颗 910B [17149]
2025 年 Q1910C 正式量产,5 月起大规模出货 [17162]
2025 年 8 月CANN 全面开源开放,Mind 系列应用使能套件同步开源 [17287]
2025 年 9 月华为全联接大会 2025,首次公布三年芯片路线图:950PR(2026Q1)、950DT(2026Q4)、960(2027Q4)、970(2028Q4),提出“一年一代、算力翻倍” [18369]
2025 年全年昇腾 910 系列出货量约 70-80 万颗,AI 芯片营收约 75 亿美元 [17331]
2026 年 Q1昇腾 950PR 推出,首次搭载华为自研 HBM(HiBL 1.0),FP8 算力 1 PFLOPS [17168]
2026 年 Q4昇腾 950DT 计划推出,自研 HiZQ 2.0 HBM,144GB/4 TB/s [17129]

4.1.4. 最新产品系列

4.1.5. 当前主力:Ascend 910C(2025-2026 年大规模出货)

910C 本质上是两颗 910B 芯片通过 Chiplet 封装合封的产物,用 “面积换算力” 的方式在 7nm DUV 工艺下实现性能提升 [17157]

参数规格
架构达芬奇第二代,SIMD/SIMT 混合执行
制程SMIC N+2(等效 7nm,DUV 多重曝光)[17149]
晶体管数~530 亿 [17149]
封装双 Die Chiplet,两颗 910B 合封,国产 CoWoS 类封装 [17157]
FP16 算力~800 TFLOPS [17150]
显存96–128 GB HBM2e [17130]
显存带宽约 3.2 TB/s(部分来源称 1.8 TB/s,可能为单 Die 带宽)[17150]
TDP~550W [17843]
性能对标约 NVIDIA H100 的 80%(FP16 理论算力),推理约 60% [17128]

数据矛盾:关于 910C 的显存带宽,部分来源给出 1.8 TB/s [17130],而主流分析采用 3.2 TB/s [17150]。这一差异可能源于双 Die 合并计算方式的不同——若每个 Die 独立访问自己的 HBM 栈,有效带宽取决于 NUMA 访问模式。架构师建议以 3.2 TB/s 为理论峰值,实际应用受限于跨 Die 通信开销。

4.1.6. 新一代推理芯片:Ascend 950PR(2026 Q1 量产)

950PR 是昇腾从“能用”走向“好用”的关键转折,首次引入 SIMD/SIMT 同构设计,并搭载自研 HBM [17168]

参数规格
架构第三代达芬奇,SIMD/SIMT 同构,新增 Regbase 编程范式 [17168]
制程SMIC N+3(等效 5nm,DUV + SAQP 四重曝光),良率 80%+ [17860]
芯片设计2×计算 Die + 2×I/O Die [17782]
FP8 算力1 PFLOPS [17168]
FP4 算力2 PFLOPS [17168]
显存128 GB HiBL 1.0(华为自研 HBM)[17171]
显存带宽1.6 TB/s [17171]
TDP600W [17799]
定价~7 万元人民币/卡,约为 NVIDIA H200 的 1/3 [17796]
定位推理 Prefill 阶段 + 推荐系统

4.1.7. 训练/解码芯片:Ascend 950DT(2026 Q4)

参数规格
显存144 GB HiZQ 2.0(自研 HBM 第二代)[17129]
显存带宽4.0 TB/s [17129]
FP8 算力2 PFLOPS [17781]
定位推理 Decode + 大模型训练

Ascend 910D:传闻 2026 Q2-Q3 量产,5nm 制程,4-Die 封装,支持 FP8,目前公开信息有限,需进一步核验 [17156]


4.1.8. 产品技术特点

4.1.9. 达芬奇架构核心设计

达芬奇架构是华为自研的 特定域架构(DSA),核心创新在于 3D Cube 矩阵计算单元——一个时钟周期内完成 16×16×16 矩阵乘加(4,096 次 MAC 操作),相比传统 1D/2D MAC 阵列实现数量级提升 [18118]。三大计算单元独立流水线 [18120]

  • 3D Cube(矩阵单元):矩阵乘加,算力核心
  • Vector(向量单元):激活函数、LayerNorm、Softmax 等非矩阵运算
  • Scalar(标量单元):循环、分支、流水调度(类似轻量 CPU)

达芬奇核心分为五个等级(Max/Lite/Mini/Tiny/Nano),支持从 IoT 端侧到云端数据中心的 全场景 平滑扩展 [17993]

4.1.10. 910B→910C 的关键架构变化

  • 910B 去掉了 910 上的 Nimbus die,AIC/AIV 从耦合改为分离架构(所有交互须经 L2 缓存)[18322]
  • 910C 采用 双 Die Chiplet 合封:将两颗 910B 芯片分别置于各自硅中介层上,再通过有机基板连接,类似 NVIDIA B200 的封装思路 [18000]

4.1.11. 950 系列的代际飞跃

从 950PR 开始的第三代达芬奇架构,最重要的变化是 SIMD/SIMT 同构设计,新增 Regbase 编程范式 [17168]。这意味着华为终于开始向 GPU 式的编程模型靠拢,大幅降低 CUDA 代码迁移成本。配合自研 HBM(HiBL 1.0)和国产 5nm 工艺,950 系列是昇腾“从能用走向好用”的关键转折。

此外,950 系列针对 MoE 模型做了专门优化,向量计算单元重构和内存访问粒度优化使稀疏激活计算效率提升 40% 以上。华为测试数据显示,950DT 在 DeepSeek V3 模型训练中,单卡迭代速度较 910C 提升 2.3 倍 [18010]


4.1.12. 软件生态

4.1.13. CANN:昇腾的“CUDA 替代品”

CANN(Compute Architecture for Neural Networks)是昇腾全栈方案中的异构计算架构层,定位对标 NVIDIA CUDA。2025 年是 CANN 生态的“分水岭”之年:

节点关键动作
2025 年 8 月CANN 全面开源,Mind 系列套件同步开源 [17287]
2025 年 9 月CANN 技术指导委员会(TSC)成立 [17298]
2025 年 9-12 月算子库、通信库、图引擎、Ascend C、运行时等全部代码上仓 GitCode [17290]
2026 年 2 月开源完成,60+ 客户/伙伴基于 CANN 自主打造 420+ 高性能算子 [17290]

CANN 版本迭代节奏:8.0(2024)→ 8.2(2025)→ 8.5.0 → 9.0.0(2026,配套 MindSpore 2.9.0),平均每季度一次大版本 [17463]

4.1.14. 框架兼容性全景

CANN 已支持的框架/库 [17245]

  • PyTorch(通过 torch_npu 插件,PrivateUse1 机制无缝集成)
  • MindSpore(原生深度适配)
  • TensorFlow / PaddlePaddle / Jittor / ONNX
  • vLLM(vllm-project/vllm-ascend 仓库,2025 年 2 月创建)[17473]
  • SGLang(sgl-mindspore 已适配)[17671]

4.1.15. MindSpore 框架

MindSpore 2.9.0(2026 年最新)核心创新 [17443]

  • 无图融合技术:动态图原生自动算子融合,无需静态图编译
  • Triton Ascend 算子:用户可直接用 Python 语法编写 Triton 内核
  • MindSpore Science 科研智能体系统:覆盖化学、生物等领域

4.1.16. 三大关键工具链

工具功能对标
MindSpeed大模型训练加速库NVIDIA NeMo/Megatron
MindIE / MindIE Motor推理引擎 + 推理服务加速库NVIDIA TensorRT/Triton
CATLASS算子模板库NVIDIA CUTLASS

4.1.17. 生态差距的客观评估

CANN 软件栈兼容性约 95%,与 CUDA 生态积累仍有差距 [18390]。主要短板:

  • 冷门算子的 CANN 支持度不足
  • 调试工具链(profiler、debugger)有待完善 [17214]
  • 实际利用率目前仅约 35%,华为目标通过软件优化提升至 70% [17958]
  • 大规模训练稳定性问题:DeepSeek R2 的训练因昇腾平台问题而延迟 [17380]

架构师判断:CANN 开源是华为在 AI 生态上最正确的战略决策。CUDA 的护城河不在于技术本身,而在于 先发优势和生态锁定。CANN 开源 + PyTorch 兼容路线,本质上是“用开源对抗封闭、用兼容降低迁移成本”——这是当前唯一可行的路径。但生态建设需要时间,CUDA 花了 15 年才建成今天的地位,CANN 至少还需要 3-5 年。

值得一提的是,智谱 AI 已在昇腾芯片上使用 MindSpore 框架训练出对标 GPT-5.2 和 Claude Opus 4.5 的模型,零 NVIDIA 依赖——这是昇腾生态的一个里程碑式验证 [17188]


4.1.18. 商业化与客户

4.1.19. 营收规模

指标2025 年2026 年(预测)
昇腾 AI 芯片营收~75 亿美元(约 540 亿元人民币)[17345]目标 120 亿美元(约 870 亿元),同比 +60% [17345]
华为集团总营收8,809 亿元(净利 680 亿元)[17755]
华为研发投入1,923 亿元(占总营收 22%)[17344]

昇腾芯片是华为增长最快的业务板块之一,徐直军明确表示“华为的 AI 变现策略聚焦于硬件”[17359]

4.1.20. 核心客户

客户订单规模详情
字节跳动2026 年超 400 亿元昇腾最大单一客户,2025 年采购“近乎为零”,2026 年跃居第一 [17562]
阿里巴巴大规模订购 950PR确认采购 [17367]
腾讯大规模订购 950PR确认采购 [17368]
中国移动2025-2026 年 AI 集采,昇腾生态斩获 34 亿元7,499 台推理 AI 服务器 [17578]

4.1.21. 出货量

年份出货量备注
2024 年~50.7 万颗(SemiAnalysis 数据)以 910B 为主 [18392]
2025 年70-80 万颗(多来源综合)910C 约 30-40 万颗,910B 约 30-40 万颗 [17331]
2026 年(计划)910C ~60 万颗 + 950PR ~75 万颗,总裸 die 最高 160 万片 [17352]

4.1.22. 市场份额

时间华为昇腾NVIDIA
2024 年约 NVIDIA 的 1/3 [17542]中国 AI 芯片市场 ~95% [17399]
2025 年(H20 禁令后)与 NVIDIA 持平 [17542],国内份额约 35% [17778]降至 ~55% [17399]
2026 年(预测)预计 50-60% [17388]预计降至 ~8% [17388]

4.1.23. 智算中心部署

  • CloudMatrix 384 超节点:384 颗 910C 全互联,总算力 300 PFLOPS,已部署于字节跳动等客户 [17163]。在 DeepSeek R1 推理中,CloudMatrix-Infer 实现了 4.45 tokens/s/TFLOPS 的计算效率,高于 SGLang on H100 的 3.75 [17933]
  • Atlas 950 SuperPoD:8,192 颗 NPU 互联,FP8 算力 8 EFLOPS,预计 2026 Q4 上市 [17586]
  • Atlas 950 SuperCluster:64 个 SuperPoD 互联,524 EFLOPS FP8 [17597]
  • 深圳光明大装置力服务平台:中国移动 1.55 亿元中标,910C 为核心算力底座 [17583]

4.1.24. 财务、营收、融资或估值信息

华为昇腾 并非独立公司,不单独披露财务数据,也不存在独立融资或估值。以下为公开可得的财务相关数据:

指标数据来源
2025 年昇腾 AI 芯片营收~75 亿美元行业分析师估计 [17345]
2026 年昇腾 AI 芯片营收目标~120 亿美元基于已获订单 [17345]
华为集团 2025 年总营收8,809 亿元华为 2025 年年报 [17755]
华为 2025 年研发投入1,923 亿元(占营收 22%)华为 2025 年年报 [17344]
华为 ICT 基础设施营收3,750.1 亿元华为 2025 年年报 [17640]
昇腾开发者数400 万(截至 2025 年底)华为 2025 年报 [18380]

注意:华为昇腾的营收数据均为分析师估计,并非华为官方披露。75亿/75 亿 / 120 亿为行业普遍引用的估算值,有一定参考价值但需谨慎使用。


4.1.25. 核心竞争力

4.1.26. 全栈自主可控

昇腾是 中国唯一实现“芯片→CANN→MindSpore→Mind 套件→集群”全栈自研且不依赖美国技术溯源 的 AI 加速器方案。达芬奇架构完全自研,不受 NVIDIA/AMD 专利限制,在美国出口管制持续加码的背景下,这一优势是无价的。BIS 甚至将使用昇腾 910B/910C/910D 定性为“EAR 违规行为”,反而强化了其“不可替代性”[17699]

4.1.27. 系统级集群能力

华为通过 “超节点+集群” 架构绕开单芯片性能劣势。384 颗 910C 互联的 CloudMatrix 总算力约 300 PFLOPS,约为 GB200 NVL72 的 2 倍,内部聚合带宽超过 5.5 Pbps,scale-up 带宽是 NVL72 的 2.1 倍 [18159]。虽然功耗代价巨大(559 kW vs 145 kW,能效比差约 2.5 倍)[18156],但“以量取胜”在国产替代逻辑下是可行的。

4.1.28. 自研 HBM 突破

950PR 首次搭载华为自研 HiBL 1.0 HBM,DRAM 晶圆由长鑫存储代工,标志着中国首次实现 AI 芯片用 HBM 的国产化 [17179]。这是昇腾从“受制于 HBM 供应”到“自主可控 HBM”的关键转折。

4.1.29. 客户锁定与政策红利

在 H20 出口受限后,中国云厂商(字节、阿里、腾讯)别无选择,只能大规模采购昇腾。字节跳动 2026 年 400 亿+ 订单即是明证 [17562]。这不是纯粹的市场竞争结果,而是 地缘政治驱动的“被动替代”——但一旦完成部署和适配,客户迁移回 NVIDIA 的成本同样巨大。

4.1.30. 生态开放战略

2025 年 CANN 全面开源,成立 TSC,每年投入 10 亿元支持原生开发,计划三年赋能百万原生人才 [17287]。这一策略的正确性在于:华为认清了“一家公司无法独自建立与 CUDA 抗衡的生态”,必须借助开源社区的力量。


4.1.31. 主要短板

4.1.32. 单芯片性能代际差距

910C(FP16 ~800 TFLOPS)约为 H100(1,979 TFLOPS)的 40%,约为 B200(FP4 9,000 TFLOPS)的 不到 10% [17150]。即使 950PR 的 FP8 算力达到 1 PFLOPS,与 B200 仍有明显差距。制程落后(7nm DUV vs 4nm EUV)是根本原因。

4.1.33. 软件生态成熟度

CANN 兼容性约 95%,但“最后 5%”往往是最难攻克的部分——涉及冷门算子、性能调优、调试工具链。实际利用率仅 35%,目标 70%,说明软件栈优化仍有巨大空间 [17958]。此外,大规模训练稳定性仍存问题,DeepSeek R2 训练延迟部分原因就是昇腾平台问题 [17380]

4.1.34. 能效比劣势

CloudMatrix 384 总算力达到 GB200 NVL72 的 2 倍,但功耗 559 kW vs 145 kW,能效比差距约 2.5 倍 [18156]。在大规模智算中心部署中,电力成本是 TCO 的关键组成部分。

4.1.35. 910C 不支持 FP8/FP4

910C 架构原生不支持 FP8/FP4 低精度格式,而 H100 支持 FP8、B200 支持 FP4。低精度直接决定大模型训练推理的效率,这是 910C 在训练场景落后 H100 的核心原因之一 [18060]。950PR 已补齐这一短板。

4.1.36. 与 NVIDIA 的互联差距

910C 互联带宽 784 GB/s vs H100 900 GB/s vs B200 1.8 TB/s [18071]。950PR 互联带宽提升至 2 TB/s,但仍落后于同期 NVIDIA 产品 [17168]


4.1.37. 供应链风险

4.1.38. 风险矩阵

风险维度风险等级核心瓶颈2025-2026 展望
SMIC 制造良率🟡 中高7nm DUV 良率约 40%,目标 60% [18394]逐步改善但难突破 DUV 物理极限
SMIC 晶圆产能🟢 中~45K WSPM(2025),扩至 60K(2026)[17523]并非最紧约束
先进制程升级🔴 高无 EUV,5nm 一再推迟2026 年前仍困于 7nm
HBM 供应🔴 极高海外采购渠道收紧,国产 HBM3 尚未规模量产最大瓶颈 [17276]
先进封装🟡 中高盛合晶微+通富微电产能远不及台积电快速扩产中,但 2026 年仍存缺口
出口管制🔴 高BIS 将昇腾定性为“使用即违法”第三方渠道持续收紧 [17699]
设备断供🟡 中高DUV 存量设备可维持 2-3 年2026 年后备件/维护风险上升

4.1.39. HBM:最紧约束

SemiAnalysis 明确指出:HBM 而非 SMIC 晶圆产能,是限制昇腾产量的最紧约束 [17276]。长鑫存储 2026 年预计仅能生产约 200 万 HBM 堆栈,仅够支撑 25-40 万颗昇腾 910C 封装 [17524]。华为自研 HBM(HiBL 1.0)的 950PR 能否如期量产,是决定 2026 年昇腾能否突破瓶颈的关键。

4.1.40. “Die Bank” 策略

华为利用制裁前囤积的台积电老节点芯片裸片(鲲鹏 920/930、早期 910/910B),配合新封装释放产能压力 [17308]。这是一个“吃老本”的策略,库存耗尽后将面临更大的产能缺口。


4.1.43. 核心判断

昇腾将从“替代品”走向“主导者”——但仅限中国市场。

判断维度预测
2026 年950PR/950DT 量产,自研 HBM 首次商用,中国市场占有率突破 50%,营收冲击 120 亿美元
2027 年960 系列推出,自研 HBM 成熟,SMIC 5nm 或良率大幅改善,有望在部分场景接近 H200 水平
2028 年970 系列,百万卡集群成熟,但制程差距(无 EUV)可能达到 2 代以上(台积电 2nm vs SMIC 5nm/7nm)

4.1.44. 乐观因素

  • 字节跳动 400 亿+ 订单提供了确定性的商业化路径
  • 自研 HBM 突破消除了最大供应链瓶颈
  • CANN 开源 + PyTorch 兼容路线正在加速生态建设
  • 美国出口管制持续加码,反而强化了华为的“不可替代性”

4.1.45. 悲观因素

  • 无 EUV 光刻机,SMIC 5nm 量产仍存不确定性,与台积电的代差可能持续拉大
  • 能效比劣势意味着智算中心电力成本高昂,长期 TCO 竞争力存疑
  • “Die Bank”库存耗尽后,晶圆产能需求将完全依赖 SMIC
  • 若中美关系缓和、NVIDIA 恢复对华供应,昇腾可能面临“性价比”挑战

本小节所有数据截至 2026 年 6 月 18 日。营收、出货量等数据综合自多家行业分析师报告,部分为估算值,已标注来源。华为官方未单独披露昇腾芯片营收数据,使用时请注意。

4.2. 阿里平头哥真武

4.2.1. 战略定位:全球唯二的“模型+云+芯片”全栈玩家

平头哥真武系列芯片的独特之处,不在于它在参数表上击败了哪款NVIDIA产品,而在于它背后的“通云哥”三位一体架构——通义实验室(模型层)、阿里云(云平台层)、平头哥(芯片层)的深度耦合。这一架构在全球范围内,目前只有阿里和Google(Gemini+GCP+TPU)两家真正做到规模化落地 [18466]

架构师洞察:这与英伟达的“芯片→卖给云厂商→云厂商适配模型”的链式分工有本质区别。“通云哥”是一种 垂直整合 模式——芯片架构设计阶段就可针对千问大模型的MoE结构、阿里云的网络拓扑和调度策略做硬件级预优化。这种协同带来的效率提升,是在芯片流片前就锁定的,而非事后调优。

真武芯片的定位介于 Google TPU的DSA(领域专用架构)NVIDIA GPU的通用计算 之间。官方称为“PPU(Parallel Processing Unit)”,强调其自研并行计算架构,但确实不具备图形渲染固定功能管线 [18486]。这使得它在中国国产AI芯片光谱中占据一个独特生态位:比华为昇腾更开放(非华为体系绑定),比寒武纪更贴近云原生场景,比摩尔线程更聚焦AI

4.2.2. “通云哥”全栈协同:真武的核心护城河

真武芯片的真正价值,需要通过“通云哥”三维度来理解 [18464]

维度角色与真武的协同机制
通义实验室模型定义者千问大模型的MoE结构、稀疏性特征在芯片设计阶段即可反馈,指导指令集硬化和算子融合 [18464]
阿里云算力组织者智算集群的网络拓扑、虚拟化架构、调度策略与真武芯片深度协同,IO通路和功耗控制可定制优化 [18605]
平头哥硬件实现者芯片架构针对阿里云实际负载设计,2-3年内部验证后再推向市场,产品成熟度远超同期竞品 [18457]

这种内循环的闭环优势,在2026年5月阿里云峰会上得到了极其生动的展示:Qwen3.7-Max在无人工干预的真武M890芯片上自主运行35小时,完成了生产级AI计算内核的编写与优化,性能较官方版本提升10倍 [18558]。这既是AI能力的展示,更是真武芯片可编程性和软件栈灵活性的有力证明。

但这一模式也有代价:真武的营收高度依赖阿里云体系,外界难以清晰评估其独立盈利能力 [18530]。随着独立上市规划的推进,平头哥需要确立更清晰的关联交易定价机制,让外界相信它不只是阿里云的“成本中心” [18461]

4.2.3. 产品演进逻辑:从“内部验证”到“公开路线图”

真武系列的发展路径,遵循一套独特的“先验证、后公开”逻辑——这在国产芯片圈几乎绝无仅有 [18457]

阶段时间关键事件战略意义
秘密研发2020年真武810立项研发比含光800晚一年,平头哥已进入“大芯片”深水区 [18462]
内部验证2022年底-2025年初完成研发和场景验证,仅在阿里内部自测阿里云万卡集群提供无与伦比的“试炼场” [18457]
意外曝光2025年9月央视《新闻联播》报道中国联通三江源项目时,画面中曝光PPU参数对比表行业“公开的秘密”正式浮出水面 [18466]
正式亮相2026年1月29日平头哥官网上线“真武810E”产品信息从“内部工具”转向“公开商业化产品” [18468]
加速迭代2026年5月20日发布真武M890,首次公布至2028年路线图确立“一年一代”的公开迭代节奏 [18790]

关键判断:从810E(2026年1月)到M890(2026年5月)仅隔4个月就发布性能3倍的产品,这不可能是全新架构设计。M890更可能是810E的“大杯版本”——更大显存(144GB vs 96GB,+50%)、更高互联带宽(800 vs 700 GB/s,+14%)、优化数据精度(新增FP4支持)[18460]。真正的架构级换代,应当看2027年Q3的V900和2028年Q3的J900 [18782]

4.2.4. 真武M890:Agentic AI时代的战略性产品

2026年5月发布的真武M890,是平头哥首次在产品定义中明确瞄准“Agentic AI”时代——一个Agent在执行任务时,可能在毫秒间发起数十次模型调用,对芯片的并发推理能力和通信时延提出极高要求 [18768]

M890的关键技术特征:

参数真武810E真武M890提升幅度战略意图
显存96GB HBM2e144GB+50%支持更大模型、更长上下文
片间互联带宽700 GB/s800 GB/s+14%提升多卡协同效率
数据精度FP32-FP16FP32→FP4新增FP4覆盖超低精度推理场景
配套互联芯片无专用SwitchICN Switch 1.025.6 Tbps64卡全带宽互联
最大互联规模单机8卡128卡超节点16×一台机器跑大模型
通信时延未公开<150ns(P2P)百纳秒级Agent并发推理的核心指标

M890搭配的 ICN Switch 1.0互联芯片磐久AL128超节点服务器(128卡组成一台计算机),通信时延低至百纳秒级,这对Agentic时代“高频、高并发”的模型调用需求至关重要 [18553]。平头哥自研的ICN互联总线协议+PCCL通信库,对标的是NVIDIA NVLink/NVSwitch,但走的是完全自主的技术路线 [18550]

4.2.5. 客户版图与商业化进展

真武系列的商业化进程,在2025-2026年实现了质的飞跃 [18692]

维度数据时间节点来源
累计出货量56万片2026年5月[18797]
年化营收突破百亿元2026财年Q3[18700]
外部客户占比60%以上2026年2月[18700]
服务客户数400+企业客户截至2026年5月[18797]
覆盖行业20+行业截至2026年5月[18797]
中国联通三江源项目份额54%(1945P/3579P FP16)2025年[18691]

代表性客户 包括:中国联通、中国电信(运营商)、国家电网(政务)、中国科学院(科研)、小鹏汽车、比亚迪、一汽集团(自动驾驶)、浦发银行(金融)、新浪微博(互联网)等 [18452]

关键判断:真武芯片处于“供不应求”状态,算力卡价格涨幅5%-34%仍供不应求 [18615]。这种供需失衡,一方面反映了市场对国产AI算力的旺盛需求,另一方面也暴露了产能瓶颈——台积电7nm制程的供应稳定性是最大变量。

4.2.6. 供应链风险:真武的“阿喀琉斯之踵”

真武系列的供应链风险,是评估其投资价值时必须正视的核心问题:

风险环节当前状态风险等级潜在替代方案
芯片制造台积电7nm代工 [18622]🔴 高中芯国际N+2(等效7nm),但良率和产能有限 [18667]
HBM内存三星/SK海力士HBM2e [18625]🟡 中高国内HBM产业链尚在起步阶段,短期无法替代
先进封装CoWoS封装 [18666]🟡 中国产CoWoS技术已有进展,但规模化能力待验证
EDA工具国际主流工具🟡 中若制裁升级,3nm以下先进设计可能受阻 [18611]
芯片测试利扬芯片(688135)[18747]🟢 低国产化程度高,利扬35%-40%产能专供平头哥 [18703]

2024年11月,台积电在美国压力下宣布断供中国大陆7nm及以下先进制程AI芯片 [18762]。虽然平头哥可能通过提前备货或寻找替代方案缓解短期压力,但中长期来看,制造来源的确定性是真武系列能否兑现“一年一代”路线图的前提条件 [18611]

4.2.7. 与NVIDIA的对标:不是GPU,而是TPU式玩家

真武系列与NVIDIA GPU的对标,需要放在正确的参照系中理解 [18469]

对标维度真武810ENVIDIA H20NVIDIA H100/H200
单卡性能与H20相当基准远超H20(H20是H100的阉割版)
显存代际HBM2eHBM3HBM3e
软件生态T-Head SAILCUDA(成熟)CUDA(完整)
图形能力❌ 无✅ 有✅ 有
全栈整合“通云哥”模型+云+芯片
供货稳定性台积电断供风险出口管制限制对中国禁售

核心判断:真武对标Google TPU的逻辑,比对标NVIDIA GPU更准确。两者都是“云厂商自研AI芯片→内部大规模验证→对外提供算力服务”的路径 [18558]。差异在于,Google TPU至今不对外销售芯片,而真武已开始直接卖卡——这既是商业化的优势,也意味着需要在软件生态和客户支持上投入更多。

4.2.8. 独立上市:从“成本中心”到“利润中心”的关键一跃

2026年1月,阿里计划将平头哥重组为部分由员工持股的实体,随后探索IPO [18461]。这一信号意味着:

  1. 估值重估:野村证券基于2027年预测销售额的8.5倍市销率,对阿里云及平头哥整体给出约3900亿美元的估值 [18688]。市场分析认为,平头哥若独立上市,估值或占阿里总市值的6%-14% [18609]

  2. 人才绑定:重组为员工持股公司,是留住顶尖芯片架构师最有效的“金手铐”。在国产AI芯片人才争夺白热化的背景下,这一安排至关重要 [18696]

  3. 独立盈利能力考验:真武60%以上芯片已服务外部客户,但营收结构仍高度依赖阿里云体系。上市后,平头哥需要向市场证明自己不是“阿里的成本中心”,而是一家具备独立盈利能力的芯片公司 [18530]

  4. 窗口期:2025年底至2026年初,摩尔线程、沐曦股份、壁仞科技相继登陆资本市场,百度昆仑芯也提交IPO申请,国产AI芯片迎来集中上市窗口期 [18692]。平头哥若抓住这一窗口期完成IPO,将获得独立融资能力,加速研发和生态建设。

4.2.9. 未来3年判断:分化与不确定性

2026年:真武810E持续放量,M890开始小规模部署,全年出货量有望突破100万片。软件生态仍处于追赶期,但“通云哥”协同效应开始显现。独立上市进程推进,可能于2026年底或2027年完成IPO。

2027年:真武V900(216GB显存,1200GB/s带宽)发布,若性能兑现“3倍于M890”的承诺,有望在单卡性能上接近或达到NVIDIA B200水平 [18783]。关键挑战:台积电断供后能否找到稳定的先进制程替代方案

2028年:真武J900“架构跨越式革新”发布,可能涉及Chiplet、新器件或新计算范式 [18782]。若供应链问题解决,平头哥有望成为全球AI芯片第二梯队(仅次于NVIDIA和Google TPU)的核心玩家。

关键风险:美国出口管制持续升级,先进制程和HBM供应被彻底切断。若此情况发生,平头哥的增长曲线将面临严峻挑战——“一年一代”的路线图将沦为纸上谈兵

核心判断:平头哥真武是中国国产AI芯片中最具“Google TPU式”潜力的玩家——不是因为它技术最强,而是因为它拥有“模型+云+芯片”的完整闭环。这个闭环一旦形成正向飞轮(更多客户→更多业务数据→更优芯片设计→更强性能→更多客户),将产生强大的自我强化效应。但这一切的前提是 供应链安全——如果台积电彻底断供且国产替代无法及时跟上,平头哥的增长曲线将面临严峻挑战。

4.3. 寒武纪

同上

4.3.1. 寒武纪(Cambricon Technologies)

4.3.2. 公司概况

寒武纪(中科寒武纪科技股份有限公司,688256.SH)是中国大陆最早一批AI芯片创业公司,也是科创板“AI芯片第一股”。公司成立于2016年3月,总部位于北京,2020年7月在科创板上市。公司名称取自“寒武纪生命大爆发”,寓意智能时代的爆发式增长。

寒武纪是中国极少数拥有 全栈自研AI芯片能力(指令集→架构→芯片→软件栈)的公司,且是唯一一家 云‑边‑端全场景覆盖 的国产AI芯片公司。其MLU(Machine Learning Unit)架构从设计之初就属于 AI领域专用架构(DSA),与通用GPU路线存在本质差异——这带来了能效优势,但同时也意味着通用性受限[18854]

公司名称中科寒武纪科技股份有限公司
英文名Cambricon Technologies Corporation Limited
成立时间2016年3月
总部北京
上市2020年7月(科创板,688256.SH)
员工约1,107人(2025年末),其中研发887人,占比80.13% [19004]
2025年营收64.97亿元 [18870]
2025年净利润20.59亿元(首次全年盈利)[18871]
市值一度突破6,000亿元(2025年8月),后回落但仍在高位 [19015]

数据来源:[18870]

4.3.3. 创始团队和核心成员背景

寒武纪的创始团队在中国AI芯片领域堪称“顶配”。

陈天石(创始人、董事长兼CEO):1985年出生,江西南昌人。16岁考入中国科学技术大学少年班(数学与应用数学专业),25岁获中科大计算机学院博士学位。2010年博士毕业后进入中科院计算技术研究所,历任助理研究员、副研究员、研究员(正教授)、博士生导师。2016年创办寒武纪,担任董事长兼总经理[18898]

陈云霁(联合创始人、首席科学家):1983年出生,陈天石的亲哥哥。14岁考入中科大少年班,19岁进入中科院计算所硕博连读,成为国产“龙芯”研发团队中最年轻的成员。24岁获博士学位,25岁成为8核龙芯3号的主任架构师,29岁晋升研究员。2015年入围《麻省理工技术评论》全球35位35岁以下杰出青年创新者。现为中科院计算所副所长、处理器芯片全国重点实验室主任[18896]

兄弟二人的“双核”分工模式:哥哥陈云霁留在中科院计算所继续从事基础研究并担任寒武纪首席科学家,弟弟陈天石全职担任CEO。这种“研究所+公司”的双轨模式在中国AI芯片公司中独一无二,让寒武纪在基础研究层面保持了极高的起点[18893]

团队背景:核心成员主要来自中科院计算所智能处理器课题组。2015年,该团队(仅约20人)在中科院一间30平方米的实验室完成了世界首款深度学习专用处理器原型芯片的流片[18899]。团队副总裁曾参与龙芯CPU和寒武纪NPU项目研发[18901]

架构师评注:寒武纪的创始团队配置在国产AI芯片圈中可以说“出道即巅峰”。陈云霁的龙芯CPU架构师背景让寒武纪在指令集设计和处理器微架构层面拥有极深的积累——这恰恰是很多国产GPU公司最薄弱的环节。但一个值得注意的事实是:陈云霁并未全职加入寒武纪,而是“半学术界半产业”的角色。这种模式在早期能够提供学术背书,但在公司进入大规模商业化和工程化阶段后,学术研究和工程落地的张力可能成为隐忧。

4.3.4. 发展历程

寒武纪的发展史,可以用“高开→低走→逆袭”来概括:

时间事件
2015年中科院计算所团队完成世界首款深度学习专用处理器原型芯片流片 [18899]
2016年3月寒武纪公司正式成立 [18894]
2017年寒武纪1A处理器搭载于华为Mate 10,成为全球首款手机AI芯片(IP授权模式) [18889]
2018年推出云端AI芯片思元100(MLU100),进军云端;推出第二代终端IP 1H/1M [18817]
2019年发布第二代云端芯片思元270(MLU270),边缘芯片思元220 [18819]
2020年7月科创板上市,募资约25亿元,成为“科创板AI芯片第一股” [19137]
2021年发布首颗训练芯片思元290 + 训推一体芯片思元370(chiplet设计);成立行歌科技(自动驾驶) [19137]
2022年12月被美国商务部列入实体清单,台积电7nm代工中断 [19064]
2023年思元590芯片研发推进;营收大幅下滑,全年亏损8.48亿元;行歌团队裁撤 [19109]
2024年思元590量产,Q4首次单季盈利;全年营收11.74亿元,+65.56% [18873]
2025年H1营收28.81亿元,暴增4,348%;净利润10.38亿元,首次半年度盈利 [18827]
2025年全年营收64.97亿元,+453%;净利润20.59亿元,首次全年盈利;取消“U”标识 [18870]
2026年Q1TTM营收约$1.16B(约84亿元),持续高速增长 [18846]

数据来源:综合整理

关键转折点:2022年12月被列入实体清单是整个寒武纪发展史上最重要的分水岭。在此之前,寒武纪依赖台积电7nm工艺,产品性能有保障,但2023年被迫转向中芯国际后,经历了痛苦的工艺适配过程,甚至一度传出性能损失30%[18931]。然而,2024‑2025年的AI大模型爆发+美国进一步收紧对华芯片出口管制,反而让寒武纪成为国内互联网大厂“唯一可规模化采购的国产高性能AI算力供应商”之一,迎来了爆发式增长[18962]

4.3.5. 最新产品系列

寒武纪的产品线覆盖 云‑边‑端‑车 四个场景,是目前国产AI芯片公司中布局最完整的。但需注意,部分产品(如思元590、690)尚未在官网正式发布,参数主要来自财报、券商报告及公开演讲[18855]

4.3.5.1. 云端产品线

产品发布/量产时间制程架构关键参数定位
思元1002018年16nmMLUarch01INT8 128 TOPS云端推理
思元2702019年16nmMLUarch02INT8 128 TOPS云端推理
思元2902021年台积电7nmMLUarch02扩展FP16 256 TFLOPS,1.23TB/s带宽,MLU-Link 600GB/s [19094]云端训练
思元3702021年台积电7nmMLUarch03390亿晶体管,chiplet,INT8 256 TOPS,LPDDR5,MLU-Link [18804]训推一体
思元5902024年量产7nm(SMIC)MLUarch05INT8 512 TOPS,FP16 256 TFLOPS,HBM2e 96GB,MLU-Link(约372GB/s?),功耗250‑350W [18994]云端训练主力
思元690预计2026年5nm(SMIC)等效新一代架构性能逼近H100的80%(送测数据),Chiplet(12nm+7nm混合封装),算力密度提升400% [18848]下一代训练芯片

数据来源:[18804]

思元590详细参数(基于公开信息综合,部分数据存在出入):

参数数值对比A100
制程7nm(SMIC)A100: 台积电7nm
INT8 算力512 TOPSA100: 1,248 TOPS(约41%)[18859]
FP16 算力256 TFLOPSA100: 312 TFLOPS(约82%)[18859]
BF16 算力未公开 [18859]A100: 312 TFLOPS
显存96GB HBM2e [18852]A100: 80GB HBM2e
内存带宽~2.7 TB/s [18852]A100: 1.6‑2.0 TB/s
功耗250‑350W [19086]A100: 400W
互联MLU-Link(带宽约372GB/s?)[18995]NVLink 600 GB/s
能效比2.8 TFLOPS/W(FP16)[18856]A100: 约2.0 TFLOPS/W

数据来源:[18852]

架构师评注:思元590的FP16算力约为A100的82%,但INT8算力仅为41%,说明其低精度推理方面可能尚未完全爆发。更大的亮点是HBM2e带宽高达2.7 TB/s,是A100的1.5倍,这在大模型推理(尤其是decode阶段)中可能带来显著优势。然而,思元590的BF16算力未公开,且MLU‑Link带宽似乎低于预期(有说372GB/s),这会限制多卡训练扩展效率。此外,思元590的功耗数据混乱,有说250W,也有说350W~550W,这可能与不同工作负载或不同批次有关,增加了评估难度。

4.3.5.2. 边缘产品线

产品关键参数定位
思元22032 TOPS (INT8),10W功耗,4核ARM Cortex‑A55 [18807]边缘推理
MLU220 M.2M.2加速卡边缘低功耗场景

4.3.5.3. 自动驾驶产品线(行歌科技)

产品参数状态
SD522316 TOPS,L2+行泊一体 [19105]2023年发布,进展缓慢,有传闻已流片并与一汽合作 [19118]
SD5226400+ TOPS,7nm,L4车端训练 [19111]研发不及预期,团队大面积裁撤,量产前景堪忧 [19109]

重要说明:行歌科技(寒武纪自动驾驶子公司)的发展不达预期。2023年经历团队大裁撤,SD5226研发进度严重滞后。2022年末被列入实体清单进一步打击了其7nm工艺供应。目前行歌业务已大幅收缩,公开资料有限,需进一步核验[19109]

4.3.6. 产品技术特点

4.3.6.1. 自研指令集架构:MLU ISA

寒武纪的核心技术壁垒是 自研MLU指令集(Machine Learning Unit ISA),已迭代至第五代(MLUarch05)。截至2025年末,寒武纪已形成“体系完整、功能完备、高度灵活的智能芯片指令集专利群”[18811]。最新的MLUarch05针对语言大模型、图像视频大模型、推荐系统大模型等训练推理场景进行了重点优化[19101]

架构师深层解读:MLU指令集本质上是一套 张量计算优先的领域专用指令集,而非像NVIDIA CUDA那样的通用并行计算指令集。这意味着MLU在处理矩阵乘法、卷积等AI核心算子时效率极高,但一旦遇到分支密集、控制流复杂的通用计算任务,其效率可能大幅下降。这也是为什么寒武纪芯片在某些特定场景下(如推荐系统推理)能效比可达H100的1.8倍[18978],但在通用大模型训练中综合性能“仅”A100的80%[18863]。百度测试也指出,思元590指令兼容性相对较差,可能影响部署[19055]

4.3.6.2. Chiplet设计

思元370是寒武纪首款采用chiplet技术的AI芯片,集成了390亿个晶体管[18804]。思元690预计将采用更激进的chiplet方案——公开报道称可能通过“12nm+7nm混合封装”突破制程限制,单卡算力密度较现行产品提升400%[18996]

4.3.6.3. MLU-Link多芯互联

寒武纪自研的MLU-Link互联技术,思元290的MLU-Link带宽达600 GB/s[19094],但思元590的MLU-Link带宽有报道称仅372GB/s[18995],这远低于A100的NVLink 600GB/s,可能成为多卡扩展的瓶颈。思元690是否会升级互联带宽,尚未有明确信息。

4.3.6.4. 训推一体

从思元370开始,寒武纪强调“训推一体”设计,同一芯片既能做训练也能做推理,降低了开发和部署的复杂度。思元590在此基础上进一步强化训练能力,但推理侧布局相对滞后,2025年Q3市场转向推理时,寒武纪营收增速已出现放缓[18944]

4.3.6.5. 低精度计算支持

思元590及最新思元690系列芯片均支持FP8计算,在低精度计算优化上处于国内领先水平[18971]。2025年DeepSeek V3.1发布时采用的UE8M0 FP8格式,寒武纪芯片是首批支持该格式的国产芯片之一[18969]

4.3.7. 软件生态

4.3.7.1. Cambricon NeuWare——对标CUDA的全栈软件平台

寒武纪构建了一套完整的软件栈对标NVIDIA CUDA生态:

寒武纪组件对标NVIDIA功能
BANG CCUDA C/C++异构并行编程语言 [18904]
BANG PycuPy/NumbaPython编程接口 [18915]
CNNLcuDNN/cuBLAS深度学习算子库 [18915]
CNCLNCCL多卡通信库 [18915]
MagicMindTensorRT推理加速引擎 [18918]
CNToolkitCUDA Toolkit编译/调试/分析工具集 [18911]
CNPerfNsight性能分析工具 [18908]
CNSantizerCompute Sanitizer程序正确性分析 [18908]

数据来源:[18904]

4.3.7.2. 框架适配

NeuWare已适配PyTorch、TensorFlow等主流框架,并支持DDP、FSDP、Tensor Parallelism、Pipeline Parallelism等多种分布式训练策略。寒武纪建立了“快速跟进社区版本”的长效机制,可在PyTorch社区版本发布后2周内实现MLU适配版本发布[18914]

4.3.7.3. 生态现状与差距

  • 开发者社区:寒武纪开发者社区规模约10万级别,远低于NVIDIA CUDA的300万+开发者[18978]。尽管与DeepSeek合作开源FlashMLA技术,推动社区向百万级跃迁,但实际开发者数量仍有限[18962]
  • 模型适配:主流大模型(LLaMA、Qwen、DeepSeek等)已基本适配,但适配质量和调优深度参差不齐。百度纪要指出,思元590基本支持主流模型,但软件适配度和稳定性仍显不足[18862]
  • 开源生态:寒武纪正积极拥抱开源,与DeepSeek合作开源FlashMLA技术,并联合南京智算中心上线全国产芯DeepSeek[18921]
  • CUDA迁移难度:BANG C语言与CUDA C/C++在语法层面有相似性,但由于底层架构差异(MLU vs GPU),非平凡的CUDA代码迁移仍需大量手工重写和调优。寒武纪的ASIC架构导致通用性较差,这进一步增加了迁移难度[19055]

架构师判断:寒武纪的软件栈是国内AI芯片公司中 最完整、最成体系的。寒武纪没有选择“兼容CUDA”的捷径(如摩尔线程的MUSA),而是坚持走自研生态路线。这条路“慢但正确”——长期来看,只有自研生态才能做到深度优化和差异化,但短期必然面临开发者获取成本高、生态冷启动难的问题。目前,软件生态仍是寒武纪最大短板,开发者不足10万,而CUDA生态已垄断全球近90%的AI软件开发[18978]

4.3.8. 商业化与客户

4.3.8.1. 客户结构(高度集中!)

寒武纪的客户集中度是 所有国产AI芯片公司中最高的,也是最大的风险点:

年份前五大客户营收占比第一大客户占比
2023年92.36%未披露 [18936]
2024年94.63%79.15% [19026]
2025年88.66%未披露 [18876]

数据来源:[18936]

4.3.8.2. 已知/传闻客户

  • 互联网大厂:字节跳动(传闻为第一大客户,订单占比超50%[19027])、阿里巴巴、百度、腾讯——但阿里云已于2025年9月公开否认“采购15万片GPU”的传闻[19025]。2024年Q1阿里云贡献超40%订单增量[19024],但大规模采购尚未证实。
  • 运营商:中国移动(一次性采购7,994台思元590芯片,订单金额4.3亿元)[19026]
  • 服务器厂商:浪潮、联想、曙光 [18824]
  • 政府智算中心:昆山、南京等国资智算中心项目 [19029]
  • 金融/能源/交通行业客户 [19028]

⚠️ 关键不确定性:寒武纪从未在2023‑2025年年报中披露具体客户名称。2021年和2022年披露的第一大客户分别为江苏昆山和南京的国资背景智算中心项目公司[19029]。市场对字节跳动是否为第一大客户存在广泛猜测,但寒武纪管理层在业绩会上对此“未予回应”[19029]客户结构是寒武纪最大的信息不对称,也是最大的投资风险

4.3.8.3. 销售模式

直销为主,占比99.13%。通过自有销售团队直接对接客户,参与公开招标或商务谈判,提供定制化解决方案[18876]

4.3.9. 财务、营收、融资与估值

4.3.9.1. 营收与利润(2020‑2025)

年份营收(亿元)同比增长归母净利润(亿元)毛利率
2020年4.59+3.4%-4.3565.4%
2021年7.21+57.1%-8.2562.4%
2022年7.29+1.1%-12.5665.8%
2023年7.09-2.7%-8.48 [18883]64.1%
2024年11.74+65.6%-4.52 [18873]56.71% [18872]
2025年64.97+453.2%+20.59 [18870]55.15% [18872]

数据来源:[18870]

4.3.9.2. 2025年关键财务指标

  • 总资产:134.38亿元(+100.03%)[18867]
  • 净资产:118.36亿元(+118.27%)[18867]
  • 研发投入:11.69亿元(占营收17.99%)[19006]
  • 存货:同比激增178.67%(2025年Q3已达26.90亿元)[18870]
  • 前五大客户占比:88.66% [18876]
  • 净利率:31.68% [18877]
  • 2025年Q1‑Q4季度营收:11.11亿→17.69亿→17.27亿→18.90亿 [18880]

数据来源:[18867]

4.3.9.3. 融资与估值

  • 2017年A轮:1亿美元,国投、阿里巴巴、联想、国科投资等领投,估值10亿美元 [18892]
  • 2020年IPO:科创板上市,募资约25亿元
  • 2025年股价:最低约600元,最高约1,391元(2025年8月,历史新高)[19015]
  • 市值峰值:一度突破6,000亿元,2025年8月超越中芯国际成为科创板市值第一 [19015]
  • 2025年10月:曾进行股票增发,募资约369M美元 [18837]

4.3.9.4. 上市以来首次分红

2025年报披露,拟每10股派发现金红利15元(含税),合计派现6.32亿元,同时每10股转增4.9股。2026年3月16日取消特别标识“U”(意味着不再亏损),简称变更为“寒武纪”[18867]

4.3.10. 核心竞争力

  1. 全栈自研能力:从指令集(MLU ISA)→微架构(MLUarch05)→芯片设计→基础软件栈(NeuWare),是国内唯一实现全链路自研的AI芯片公司[18864]
  2. 先发优势:2016年成立,比绝大多数国产GPU公司早3‑5年,积累了丰富的产品迭代经验和专利储备(累计2,846项专利申请,1,734项授权)[19004]
  3. 云边端全场景覆盖:从终端IP(1A/1H/1M)、边缘芯片(思元220)到云端训练推理芯片(思元590/690),产品矩阵最完整。
  4. AI专用架构的能效优势:在特定AI负载(如Transformer推理、推荐系统)中,MLU架构的能效比表现突出,部分场景可达H100的1.8倍[18978]
  5. 互联网大厂验证:思元590已在阿里、百度、字节等大厂的大模型训练/推理场景中完成测试和批量部署,是国内少数通过互联网大厂“真刀真枪”验证的AI芯片[18974]
  6. DeepSeek生态绑定:与DeepSeek深度合作,联合开源FlashMLA技术,在国产开源大模型生态中占据关键位置[18962]

4.3.11. 主要短板

  1. 客户集中度极高:前五大客户占比88.66%,单一客户依赖严重。一旦大客户转向华为昇腾或其他方案,营收将面临断崖式风险[18936]
  2. 不是GPU:MLU架构是AI专用处理器(DSA),不支持图形渲染(无DX/Vulkan/OpenGL)。在需要图形+AI融合的场景(如数字孪生、云游戏、AI辅助设计)中完全无法使用。
  3. 软件生态仍属小众:尽管NeuWare是国内最完整的AI芯片软件栈,但相比NVIDIA CUDA的300万+开发者、AMD ROCm的开源生态,寒武纪的开发者社区规模仍差一个数量级[18978]
  4. 通用性不足:MLU架构在AI专用任务上表现优异,但在通用并行计算(如科学计算HPC、分子动力学模拟、CFD)中适配成本高、性能不确定[19055]
  5. 供应链依赖SMIC:先进制程完全依赖中芯国际,而SMIC 7nm产能有限,且华为昇腾享有优先保障权,寒武纪在产能分配中处于“第二梯队”[18936]
  6. 研发投入下滑隐忧:2023年研发投入11.18亿元(同比-26.6%),研发人员从2022年的1,205人降至2023年的752人(-37.6%),2025年虽回升至887人,但仍未回到2022年高峰水平[19014]
  7. 自动驾驶业务折戟:行歌科技团队裁撤、芯片研发不及预期,自动驾驶业务线基本“名存实亡”[19109]
  8. CTO离职与管理层分歧:2025年8月,CTO因发展路线分歧离职,引发股价大跌,暴露了公司内部战略方向上的不确定性[18843]

4.3.12. 供应链风险

寒武纪的供应链风险是所有国产AI芯片公司中 最严峻的之一

风险维度具体状况
实体清单2022年12月被列入,台积电全面断供 [19064]
先进制程来源仅剩中芯国际(SMIC),7nm良率低、产能有限
产能优先级华为昇腾在SMIC享有绝对优先保障,寒武纪处于“第二梯队” [18936]
HBM供应思元590使用SK海力士HBM2e,受美国出口管制影响,未来供应不确定性大 [18852]
EDA工具依赖Synopsys/Cadence,虽已获部分许可,但先进节点工具受限 [18948]
IP授权关键IP(如PCIe、DDR PHY等)需自研或国产替代

数据来源:[19064]

架构师评注:寒武纪的供应链困境本质上是“SMIC 7nm产能漏斗”问题。SMIC的7nm产能首先满足华为,寒武纪、地平线等独立芯片设计公司只能分到剩余的部分。2025年寒武纪的存货激增178.67%,可能反映的是“有订单但产能不足所以提前备货”的焦虑,也可能是“产能已获取但客户交付节奏不确定”的库存积压风险。这两种解读截然相反,需要后续季度数据验证[18944]

4.3.13. 与 NVIDIA / AMD / Intel 的对应关系

维度寒武纪NVIDIA对应关系
架构类型AI专用DSA(MLU)通用GPU(CUDA Core + Tensor Core)不对等——寒武纪更接近Google TPU路线
训练芯片思元590A100(性能约80%)[18863]落后一代,但可部分替代
推理芯片思元590/370L40S / A10特定场景有优势 [18978]
软件栈NeuWareCUDA对标但规模差一个数量级 [18978]
图形能力完整完全无法对标
HPC有限完整差距大
生态10万开发者300万+开发者差距一个数量级

更准确的类比:寒武纪的路线更接近Google TPU——面向AI工作负载的领域专用架构,而非通用GPU。但TPU是Google自用不外售,而寒武纪是面向第三方客户销售的商业化产品。这一点与NVIDIA的商业模式更接近,但在技术路线上差异显著。

4.3.14. 未来3年判断

4.3.14.1. 乐观情景(概率约35%)

  • 思元690成功量产,性能逼近H100的80%,互联网大厂持续规模化采购[18962]
  • 中芯国际先进制程产能大幅扩张,供应链瓶颈缓解。
  • 软件生态形成正向飞轮:更多开发者→更多模型适配→更多客户→更多营收→更多研发投入。
  • 2027年营收突破200亿元,成为真正的“中国版NVIDIA”。

4.3.14.2. 中性情景(概率约45%)

  • 思元690如期量产但性能未达预期(H100的60‑70%),客户维持“半国产半NVIDIA”的混合采购策略。
  • 华为昇腾在互联网大厂中逐步蚕食寒武纪的份额。
  • 营收维持50‑80%的年增速,但客户集中度问题持续存在。
  • 市值回归理性(2,000‑3,000亿元区间)。

4.3.14.3. 悲观情景(概率约20%)

  • 字节跳动自研芯片进展顺利,减少对寒武纪的采购。
  • 华为昇腾910C/920在性能上全面超越寒武纪,形成“赢家通吃”。
  • SMIC先进制程进展不及预期,寒武纪产能被进一步挤压。
  • 客户集中度风险爆发,营收大幅下滑。

核心判断:寒武纪是“高赔率+高不确定性”的标的。它的技术实力毋庸置疑,但客户集中度、供应链依赖和华为昇腾的竞争是三个最核心的风险。未来3年,寒武纪最关键的里程碑是 思元690能否成功量产并大规模部署,以及 能否将客户结构从“一家独大”变为“多点开花”。2025年8月CTO的离职事件也提醒我们,管理层在技术路线上的分歧可能成为未来发展的隐忧[18843]

4.4. 摩尔线程

同上

基于已有知识整合最新公开信息,以下是《逐家公司深度分析》中“摩尔线程”子章节的完整内容,保持资深架构师视角,所有数据均标注来源,不确定信息已明确提示。


定位:中国唯一走“全功能 GPU”路线的国产厂商——从桌面游戏显卡到万卡智算集群,从 AI 训推到图形渲染,从消费级到数据中心,路线图直接对标 NVIDIA。
核心判断:摩尔线程是国产 GPU 厂商中“野心最大”的一家,也是与 NVIDIA 路线最接近的一家。但“全都要”意味着“全都不深”——图形和 AI 两边作战,在资源有限的前提下,软件生态和单点性能都可能被专业化对手超越。其策略本质是“时间换空间”:用最快的产品迭代节奏(一年一代架构)和极短的 IPO 路径(88 天过会),在产业窗口期关闭前建立起规模和品牌壁垒。


4.4.1. 公司概况

摩尔线程智能科技(北京)股份有限公司(Moore Threads Technology Co., Ltd.)成立于 2020 年 6 月,总部位于北京,是一家典型的 Fabless 芯片设计公司,专注于全功能 GPU 的研发设计 [19191]。公司于 2025 年 12 月 5 日在上海证券交易所科创板上市,股票代码 688795,被誉为“国产 GPU 第一股” [19187]。IPO 募资约 80 亿元,发行价 114.28 元/股,上市首日暴涨 425.46%,市值一度突破 3000 亿元 [19159]

摩尔线程自称“中国版英伟达”并非营销噱头——它是国产厂商中唯一一家同时覆盖 AI 计算加速卡消费级游戏显卡专业视觉加速卡智算集群智能 SoC 五大产品线的公司,产品矩阵从云到端、从训练到推理、从图形到 AI 全面铺开 [19185]。公司仅用 5 年即完成从创立到上市,88 天刷新科创板审核速度纪录 [19160]

4.4.1.1. 创始团队和核心成员背景

核心团队带有浓厚的 NVIDIA 基因。创始人张建中(James Zhang)在 NVIDIA 工作 14 年,从普通销售做到全球副总裁兼中国区总经理,亲手将 NVIDIA 中国市场份额从不足 50% 推至 80% [19165]。他不是芯片架构师出身,而是销售和市场出身,这决定了摩尔线程极度重视产品节奏、客户关系和资本市场叙事 [19179]

角色姓名背景
创始人/董事长/总经理张建中1966 年生,南京理工大学计算机系本科,冶金自动化研究院硕士。1990–1992 年冶金自动化研究院高级研究员;1992–2001 年惠普中国产品总经理;2001–2006 年戴尔中国全球客户部总经理;2006–2020 年 NVIDIA 全球副总裁兼中国区总经理。2020 年 6 月创办摩尔线程,直接+间接控制公司约 36.36% 股份,上市后持股约 10.83%,持股市值约 305 亿元 [19165]
核心团队来源大量来自 NVIDIA、AMD、Intel,包括前 NVIDIA 高级生态总监周元、前 GPU 架构师张玉博等 [19540]。张建中自称“拉着老部下挤在中关村软件园创业” [19179]

4.4.1.2. 发展历程

摩尔线程的发展速度极快,5 年内完成从零到上市,芯片架构更迭 5 代:

时间里程碑
2020 年 6 月公司成立,张建中离开 NVIDIA 创业 [19191]
2021 年 2 月完成 Pre-A 轮数十亿元融资,深创投、红杉、GGV 联合领投,字节跳动、小马智行等参投 [19397]
2021 年 11 月完成 A 轮 20 亿元融资,投前估值 119 亿元 [19410]
2022 年 3 月发布首款全功能 GPU 芯片“苏堤”及 MTT S60、MTT S2000 [19194]
2022 年 11 月发布第二代“春晓”架构,推出国内首款消费级游戏显卡 MTT S80 [19194]
2022 年 12 月完成 B 轮 15 亿元融资,中移数字新经济产业基金领投 [19410]
2023 年 10 月被美国商务部列入实体清单,台积电断供,转向中芯国际代工 [19337]
2023 年 12 月发布第三代“曲院”架构,MTT S4000 智算加速卡,支持千卡集群 [19423]
2024 年 7 月夸娥(KUAE)智算集群升级至万卡规模 [19225]
2024 年推出第四代“平湖”架构,MTT S5000 训推一体智算卡 [19429]
2025 年 6 月 30 日科创板 IPO 获受理,拟募资 80 亿元 [19201]
2025 年 9 月 26 日88 天过会,刷新科创板审核速度纪录 [19199]
2025 年 12 月 5 日正式登陆科创板,首日大涨 425.46%,市值峰值约 3000 亿元 [19170]
2025 年 12 月 20 日首届 MUSA 开发者大会(MDC 2025),发布第五代“花港”架构、华山/庐山芯片路线图、AI 算力本 [19202]
2026 年 Q1首次实现单季度净利润扭亏为盈(归母净利润 2936 万元)[19509]

4.4.1.3. 最新产品系列

4.4.1.4. 架构演进总览

摩尔线程保持“一年一代架构”的迭代速度,架构代号均取自“西湖十景”:

架构代代号时间代表产品主要定位
第一代苏堤2022MTT S10/S60/S2000信创 PC GPU 国产化,首款全功能 GPU [19444]
第二代春晓2023MTT S80/S70/S3000国内首款消费级游戏显卡,220 亿晶体管 [19220]
第三代曲院2024MTT S4000AI 训推一体,千卡集群 [19429]
第四代平湖2025MTT S5000万卡集群,FP8 原生支持,对标 H100 [19429]
第五代花港2025.12 发布华山/庐山(2026 量产)全新指令集,算力密度 +50%,能效 ×10 [19202]

4.4.1.5. 当前旗舰:MTT S5000(“平湖”架构)

参数规格
架构第四代 MUSA “平湖”,专为大规模 AI 训练优化 [19417]
FP8 算力最高 1 PFLOPS(1000 TFLOPS)[19505]
FP16/BF16 算力~512 TFLOPS [19502]
FP32 算力~32 TFLOPS [19258]
显存80 GB HBM2e [19505]
显存带宽1.6 TB/s [19505]
卡间互联MTLink 2.0,~784–800 GB/s [19498]
精度支持FP8/FP16/BF16/TF32/FP32/FP64 全精度 [19503]
性能对标宣称对标 NVIDIA H100,FP32 约为 H20 的 70%,B200 的约 40% [19500]
推理实测单卡 Prefill 吞吐 >4000 tokens/s,Decode >1000 tokens/s(DeepSeek 等模型)[19419]

4.4.1.6. 上一代主力:MTT S4000(“曲院”架构)

参数规格
INT8 算力256 TOPS [19430]
BF16 算力128 TFLOPS [19430]
FP32/FP6432/64 TFLOPS [19430]
显存48 GB [19554]
显存带宽768 GB/s [19553]
互联MTLink 1.0,支持千卡集群 [19554]

4.4.1.7. 消费级:MTT S80(“春晓”架构)

参数规格
MUSA 核心4096 个 [19250]
FP32 算力14.7 TFLOPS [19250]
显存16 GB GDDR6 [19250]
接口PCIe Gen5 x16 [19250]
性能对标NVIDIA RTX 3060 水平 [19253]
图形 APIDirectX 12、OpenGL 4.6、Vulkan 1.3 [19186]

4.4.1.8. 下一代路线图(2026 年)

产品定位预期时间
华山 GPU花港架构首款 AI 训推一体芯片,超智融合,支持 1024 卡超节点 Scale-up [19320]2026 年量产 [19328]
庐山 GPU花港架构高性能图形渲染,游戏性能比 S80 提升 15 倍,AI 算力提升 64 倍,光追性能提升 50 倍 [19318]2026 年量产 [19328]
长江 SoC智能 SoC 芯片,集成 CPU+GPU+NPU+VPU,50 TOPS 端侧 AI 算力,对标高通骁龙 8295 [19336]2026 年导入量产 [19333]
MTT AIBOOK搭载“长江”的 AI 算力笔记本,32GB+1TB,预售价 9999 元 [19187]2026 年 1 月上市
MTT C256下一代超大规模智算中心超节点架构 [19187]规划中

4.4.1.9. 产品技术特点

全功能 GPU 路线:摩尔线程是国产厂商中唯一坚持“全功能 GPU”路线的公司,一颗芯片同时具备 AI 计算加速、图形渲染、视频编解码、物理仿真四大引擎 [19217]。这与 NVIDIA 的 GPU 路线一致,工程难度极高,需要在 AI 计算、图形 API 兼容性、视频编解码硬件单元之间做深度的系统级协同。

MUSA 统一架构与 Imagination IP 依赖:MUSA 是摩尔线程自研的“元计算”统一架构,覆盖芯片架构、指令集、编程模型、驱动等全栈 [19204]。但第一代“苏堤”架构大量使用了 Imagination Technologies 的 BXT GPU IP 授权 [19432]。BXT 是基于移动端 Tile-Based Rendering 的架构,与 NVIDIA 的 Immediate Rendering 有本质区别,导致早期图形 API(如 DX11)只能通过驱动转译实现,性能和兼容性打折扣 [19434]。后续架构虽逐步自研化,但“花港”之前的自主架构占比仍存疑,有分析指出其“智多型 AI 平台”仍依赖 IMG 授权 IP 进行二次开发 [19442]“花港”架构宣称采用全新指令集,算力密度提升 50%,能效提升 10 倍 [19202],但其是否完全摆脱 IMG IP 依赖,公开资料有限,需进一步核验。

硬件级 FP8 原生支持:MTT S5000 是国内最早原生支持 FP8 精度的训练 GPU 之一,配置硬件级 FP8 Tensor Core 加速单元 [19493]。相比 BF16/FP16,数据位宽减半,显存带宽压力降低 50%,理论吞吐量翻倍,在 DeepSeek、Qwen 等模型上可提升 30% 以上训练性能 [19493]

花港架构的图形革新:花港集成全新第一代 AI 生成式渲染架构(AGR)和第二代光线追踪硬件加速引擎,支持 FP4 到 FP64 全精度端到端加速 [19328]。庐山芯片将游戏性能较 S80 提升 15 倍,AI 算力提升 64 倍,光线追踪性能提升 50 倍 [19318],但仍需样片实测验证。

4.4.1.10. 软件生态

摩尔线程的软件生态是其追赶 NVIDIA CUDA 的核心武器,核心策略是 兼容迁移 而非另起炉灶。

组件功能对标 CUDA 组件
MUSA Toolkits底层编译器(mcc)、MUSA 运行时库、CUDA 兼容转换工具NVCC + CUDA Toolkit
muDNN深度学习加速库cuDNN
muBLAS线性代数加速库cuBLAS
MCCL集合通信库NCCL
MUSIFYCUDA 代码自动转换工具,可解决 90% 以上语法兼容性问题 [19278]—(CUDA 无对应物)

MUSIFY 是杀手锏工具,可将 CUDA 代码自动转换为 MUSA 兼容版本,大幅降低迁移成本 [19278]。PyTorch 用户只需将 torch.cuda 替换为 torch.musa 即可完成迁移 [19281]。摩尔线程已声明 MUSA/MUSIFY 不涉及 NVIDIA CUDA 逆向工程,是独立实现 [19288]

开源生态:开源了 vLLM-MUSA(大模型推理框架)、OpenCV-MUSA(计算机视觉加速库)、SGLang-MUSA(支持 DeepSeek、Qwen 等主流模型“开箱即用”)[19283]。截至 2025 年底,开发者社区超 10 万开发者,适配软件超 150 款 [19257]

图形 API 兼容性:已完整支持 DirectX 12、OpenGL 4.6、Vulkan 1.3,并即将完整支持 DirectX 12 Ultimate [19186]。MTT S80 的 Windows 驱动迭代 24 个版本,国内 TOP 50 热门游戏 100% 兼容,累计适配优化游戏 192 款 [19465]。但光追硬件加速需等“庐山”芯片,当下仅规划支持 Vulkan 光追 [19197]

4.4.1.11. 商业化与客户

客户结构高度集中:2025 年上半年前五大客户营收占比高达 98.29% [19366]。核心客户是中国移动(既是股东也是最大客户),双方合作覆盖云电脑、智算集群、AI 大模型适配(九天 35B 大模型)[19198]。其他客户包括电信、联通部分项目及科研院所 [19358]

订单情况:截至 2025 年 9 月,预计订单金额约 20 亿元 [19358]。2026 年 3 月,签订单笔 6.6 亿元夸娥智算集群合同,占 2025 年全年营收超四成 [19485]。智算集群累计订单达 14.88 亿元 [19372]。收入波动极大,如 2025 年 Q3 仅 8283 万元,依赖大项目交付节奏 [19511]

商业化阶段:仍处于“以投入换未来”的早期阶段,大客户依赖度高,但云端产品毛利率达 70.32%,整体毛利率 65.57%,显示产品具有一定溢价能力 [19476]

4.4.1.12. 财务、营收、融资或估值信息

4.4.1.13. 营收与利润

年份营收(亿元)同比增长归母净利润(亿元)研发投入(亿元)
20220.46-18.9411.16
20231.24+169%-17.0313.34
20244.38+254%-16.1813.59
202515.06+243%-10.2413.05
2026 Q17.38+155%+0.29(首次单季盈利)3.69

数据来源:[19276]

关键细节:2026 年 Q1 扭亏为盈主要依赖 7006 万元政府补助,扣非净利润仍为亏损 5428 万元 [19508]。公司预计最早 2027 年实现合并报表盈利 [19333]

4.4.1.14. 融资历史

轮次时间金额投前估值主要投资方
天使轮2020 年~0.82 亿元1000 万元沛县乾曜、深圳明皓 [19409]
Pre-A 轮2021 年 2 月数十亿元深创投、红杉、GGV、字节跳动、小马智行等 [19397]
A 轮2021 年 11 月20 亿元119 亿元国盛资本、五源资本、中银国际等 [19410]
B 轮2022 年 12 月15 亿元中移数字新经济产业基金、和谐健康保险 [19410]
Pre-IPO 轮2024 年 12 月52.25 亿元246.2 亿元38 家机构 [19398]
IPO2025 年 12 月~80 亿元537 亿元(发行市值)公开发行 [19199]

累计融资超 100 亿元 [19158]。上市前估值在《2025 全球独角兽榜》中为 310 亿元 [19395]

4.4.1.15. 主要股东(IPO 后)

股东持股比例
张建中(直接+间接)~10.83%
南京神傲(员工持股平台)14.55%
杭州华傲6.73%
红杉资本~4.79%
国盛资本~4.9%
中移基金2.12%

数据来源:[19401]

4.4.1.16. 核心竞争力

  1. 全功能 GPU 唯一性:国产厂商中唯一同时覆盖图形渲染+AI 计算的路线,产品矩阵最完整 [19530]
  2. NVIDIA 基因团队:创始人及核心团队来自 NVIDIA,对 GPU 产业理解最深、人脉最广 [19179]
  3. 最快的迭代速度:一年一代架构,5 代架构(苏堤→春晓→曲院→平湖→花港),在国产厂商中无出其右 [19422]
  4. MUSA 软件生态:MUSIFY 工具大幅降低 CUDA 迁移成本,10 万+开发者生态初具规模 [19278]
  5. 资本运作能力:88 天过会、IPO 募资 80 亿元、市值一度突破 3000 亿元,资本市场认可度极高 [19199]
  6. 万卡集群能力:夸娥(KUAE)智算集群已实现万卡规模,是国产 GPU 中首个实现万卡集群商用的厂商 [19225]
  7. 中国移动深度绑定:最重要的战略股东和客户,提供资本+场景双重赋能 [19367]

4.4.1.17. 主要短板

  1. 全功能=全不精:同时做图形和 AI,在有限资源下可能两边都不如专业对手。AI 训练不如昇腾,图形渲染依赖 IMG IP 起步 [19530]
  2. IMG IP 依赖:早期架构严重依赖 Imagination Technologies 授权,自主架构占比存疑 [19432]。“花港”是否彻底摆脱 IMG 仍待验证。
  3. 制程差距:当前主力产品 S5000 使用 12nm 制程(中芯国际),与 NVIDIA 3nm 差距 2–3 代 [19256]
  4. 软件生态远逊 CUDA:10 万开发者 vs CUDA 数百万开发者,适配软件 150 款 vs 数千款 [19257]
  5. 大客户依赖:前五大客户营收占比 98%+,商业可持续性待验证 [19366]
  6. 持续亏损:成立以来累计亏损超 59 亿元,2027 年才可能盈利 [19333]
  7. 单芯片性能天花板:S5000 对标 H100 的宣称有水分,FP32 约为 B200 的 40% [19500]

4.4.1.18. 供应链风险

  • 实体清单:2023 年 10 月被列入实体清单,台积电立即断供,所有产品转向中芯国际 [19337]
  • 代工瓶颈:当前依赖中芯国际 12nm 工艺,S5000 即在 12nm 上制造 [19256]。招股书称已实现“从 12nm 快速迭代到 7nm 及更先进制程量产” [19379],但中芯国际 7nm(N+2)产能有限且良率约 85%,N+3(等效 5nm)良率仅 34% 左右,与台积电差距巨大 [19381]。未来“花港”架构芯片若采用 7nm 或 5nm,能否稳定量产是最大不确定性。
  • HBM 供应:美光断供后,依赖三星(受限)或国产长鑫 HBM2e,长鑫产能爬坡缓慢 [19382]
  • EDA 工具:先进制程设计所需的 EDA 工具可能受制裁影响,3nm 以下设计受阻 [19316]

综合判断:供应链风险在国产 GPU 中属于中等偏高,虽然已转向中芯国际,但 7nm 以下产能极为稀缺,且面临华为昇腾、寒武纪等厂商的竞争。

4.4.1.19. 与 NVIDIA / AMD / Intel 的对应关系

维度摩尔线程NVIDIA对应关系
路线全功能 GPU全功能 GPU最直接对标
AI 训练卡S5000(平湖)H100/H200/B200约 H100 的 60–80%(FP16),差距 1–2 代
AI 推理卡S5000(FP8 推理)L40S/H100推理性能国产领先
游戏显卡S80(春晓)RTX 3060性能相当,生态差距大
软件栈MUSACUDA功能对标,体量差 100 倍
集群夸娥 KUAE(万卡)DGX SuperPOD规模相当,效率差距待验证
智能 SoC长江Tegra/Orin对标高通骁龙 8295 而非 NVIDIA

摩尔线程与 NVIDIA 的关系可概括为:“像素级模仿 + 中国特色改造”。张建中在 NVIDIA 14 年,最清楚 CUDA 生态的构建逻辑,因此 MUSA 从第一天起就设计为“CUDA 兼容”路线,MUSIFY 在迁移便捷性上做得比 AMD ROCm 更好 [19179]

4.4.1.20. 未来 3 年判断

2026–2027 年:关键验证期

  • 华山/庐山芯片量产:基于“花港”架构的全自研芯片能否在 2026 年量产,是摩尔线程从“IP 集成商”到“真正 GPU 设计公司”的身份转变标志。若顺利,将大幅提升 AI 训练和图形竞争力。
  • 盈利拐点:公司预计 2027 年实现合并报表盈利,前提是营收达到 59.83 亿元且毛利率维持 61% [19333]。2026 年 Q1 的单季盈利依赖政府补贴,可持续性存疑。
  • 万卡集群运营效率:夸娥万卡集群的实际有效算力效率(MFU)是验证其系统级能力的关键,目前公开数据有限。

2027–2028 年:淘汰赛决胜期

  • 生态护城河:若 MUSA 开发者突破 50 万、适配软件突破 500 款,CUDA 迁移成本将大幅降低,形成真正的生态壁垒。
  • 图形+AI 融合场景:具身智能、数字孪生、工业元宇宙等“图形+AI”融合场景的爆发,将验证全功能路线的独特价值。
  • 供应链突破:若中芯国际 N+3 良率突破且产能扩大,摩尔线程将获得关键的制程提升空间,否则可能被华为昇腾等凭借更先进制程的厂商拉开差距。

核心判断:摩尔线程最可能成为国产 GPU 中“活得最久”的公司之一,不是因为技术最强,而是因为路线最全、资本最多、迭代最快。但“全功能”在资源有限时可能成为“全面平庸”,2026–2027 年是验证其能否在 AI 和图形两个战场同时站住脚跟的关键窗口。如果华山芯片的 AI 性能达到 H100 的 80%+,且庐山芯片的图形体验达到 RTX 4060 水平,摩尔线程将真正成为“中国版英伟达”;如果两者均不及预期,则可能被专业化对手(昇腾在 AI、景嘉微在图形)从两个方向夹击。

📌 待核验信息

  1. 花港架构是否完全摆脱了 Imagination Technologies IP 依赖?
  2. S5000 的实际制程节点(12nm 还是 7nm?不同来源矛盾 [19256]
  3. 华山/庐山芯片的具体制程和代工厂
  4. 万卡集群的实际有效算力效率(MFU)
  5. 2026 年 Q1 扣非亏损的详细构成
  6. 中国移动之外的其他大客户具体身份

4.5. 壁仞科技

同上

本节将基于已有知识框架,深度整合最新公开信息,对壁仞科技进行更聚焦技术本质和产业逻辑的剖析。

壁仞科技是国产GPU创业浪潮中最具戏剧性的样本。它的故事分为鲜明的上下半场:上半场是BR100的“高光时刻”,以极致性能参数对标甚至宣称超越NVIDIA旗舰,一度成为国产GPU的技术图腾;下半场则是被制裁后的“降规求生”,通过BR106/BR166系列务实量产,并用异构混训(HGCT)和光互连等系统级创新,重新定义自身在国产算力生态中的独特价值。

4.5.1. 产品策略的“两次关键跳跃”

壁仞的产品演进,并非简单的迭代,而是两次战略跳跃的结果。

第一次跳跃:从BR100到BR106/BR166,从“秀肌肉”到“求生存”

BR100的发布(2022年8月)是一场技术宣言。它采用7nm制程,集成770亿晶体管,使用Chiplet技术将两个计算die封装在一起,其宣称的16位浮点算力(FP16)超过1000 TFLOPS,一度是“全球算力纪录” [19609]。CTO洪洲在Hot Chips上详细拆解了其原创的“壁立仞”架构,其中 近存储计算引擎(NME)C-Warp协作开发模式 等技术,即使放在今天看,依然是极具前瞻性的架构创新,旨在解决“内存墙”和并行效率问题 [19868]

然而,2022年10月的美国BIS出口管制,让台积电暂停了代工服务,BR100实质上“难产” [19626]。壁仞被迫转向,开发了不公开具体参数、但可量产的降规版BR106 [19917]。这并非简单的性能降级,而是一次 供应链导向的重新设计。在此基础上,壁仞做出了第二次关键跳跃:通过 Chiplet技术,将两颗BR106计算裸晶与四颗DRAM共封装,推出了性能翻倍的BR166芯片 [19717]。这本质上是一种“以封装换制程”的策略,在无法获取先进制程的情况下,通过2.5D封装和裸晶间互连技术,在封装层面实现性能跨越,为国产GPU在受限条件下的发展提供了关键思路。

第二次跳跃:从卖单卡到卖集群,定义“异构+光互连”新生态位

如果BR166是硬件层面的务实创新,那么HGCT和光跃LightSphere X则是系统层面的降维打击。2024年9月,壁仞发布HGCT异构GPU协同训练方案,业界首次支持3种及以上异构GPU(如壁仞+英伟达+其他国产芯片)混合训练同一个大模型,端到端训练效率达90-95% [19684]。这直接承认了一个现实:国产GPU短期内无法完全替代英伟达,混合部署是必经之路。HGCT通过“异构调度、异构通信、异构拆分”三层架构,解决了混合算力集群的“算力孤岛”问题,极大降低了客户的迁移门槛和风险 [19690]

随后,在2025年7月的WAIC上,壁仞联合曦智科技、中兴通讯发布了国内首个光互连光交换GPU超节点——光跃LightSphere X [19822]。该方案通过光互连技术,将传输延迟降低90%以上,并在2026年3月于上海仪电智算中心完成了2048卡超节点部署,成功适配了包括DeepSeek V3在内的主流大模型 [19822]。这标志着壁仞已从单纯的芯片提供商,升级为具备 系统级集群方案能力 的算力基础设施玩家。

4.5.2. 商业化落地与财务“双面性”

壁仞的商业化在2023年之后明显加速,但呈现出鲜明的“双面性”:

  • 营收高速增长:2023年至2025年,公司营收从0.62亿元增至3.37亿元,再到 10.35亿元,同比增长207%,毛利率也提升至53.8% [19569]。这表明其产品已开始从项目试点走向规模交付。
  • 账面亏损巨大:2025年,公司净亏损高达 164.93亿元,但这主要受到“赎回负债账面值变动”这一非现金项目(达154.71亿元)的影响 [19780]。反映实际经营状况的 经调整亏损为8.74亿元,同比仅扩大13.9% [19779]。随着IPO后此类负债的终止确认,未来财报将更能反映其真实经营水平 [19793]

客户结构上,壁仞已从早期的少数客户,拓展至覆盖三大运营商、国家级算力平台(如呼和浩特智算中心)、政企及互联网公司(如中兴通讯、UCloud、无问芯穹)等 [19574]。截至招股书披露,其在手订单总价值已达 12.41亿元,为短期营收提供了明确的保障 [19575]

4.5.3. 团队变阵:资本驱动的“英雄聚集”与战略分歧的“聚散离合”

创始人张文非技术出身的“资本狂人”背景,是壁仞独特基因的来源 [19667]。他通过顶级猎头式挖人,组建了堪称豪华的技术团队,包括CTO洪洲(英伟达/华为背景)、联席CEO李新荣(前AMD全球副总裁)等 [19672]

然而,核心人才的流失也暴露了内部路线分歧。联合创始人焦国方(前高通GPU负责人)的离职,被普遍解读为其推动的 图形GPU路线与张文聚焦AI训练的战略方向发生冲突 [19759]。另一位联合创始人徐凌杰的离开,则称其仍将坚守算力赛道 [19938]。核心高管的接连出走,无疑对团队的稳定性和特定技术路线的延续性构成了挑战,但也使公司战略更加聚焦于AI算力。

4.5.4. 未来展望:BR20X是“试金石”

壁仞的未来,高度系于其下一代旗舰芯片 BR20X。该芯片计划于2026年商业化上市,将采用第二代架构,全面升级计算、内存和互联能力,并原生支持FP8/FP4等低精度计算,目标直指NVIDIA H100级别的大模型训练能力 [19700]。在先进制程受限的当下,BR20X能否在性能上取得突破,并实现稳定量产,将是决定壁仞能否从“国产替代补充”角色,真正迈向“主流算力选择”的关键一跃。同时,其更远期的BR30X/BR31X也已在规划中,预计2028年上市,展现了持续迭代的长期决心 [19702]

4.6. 海光DCU

同上

4.6.1. 公司概况

海光信息(Hygon Information Technology Co., Ltd.,688041.SH)是中国大陆唯一同时具备 高端x86 CPU和GPGPU协处理器(DCU) 研发能力的上市公司,也是国产算力领域罕见的“双芯”平台型企业。公司成立于2014年,总部位于天津,2022年8月在科创板上市,当前市值约3,000-4,000亿元区间[20001]

海光DCU(Deep Computing Unit,深度计算单元)是海光信息在“深算”系列品牌下推出的GPGPU架构AI加速器产品线。与华为昇腾(ASIC DSA路线)、寒武纪(MLU DSA路线)不同,海光DCU采用 通用GPGPU架构,硬件兼容AMD CDNA架构体系,软件栈基于ROCm生态构建,是国产AI芯片中 CUDA迁移成本最低 的路线之一[20016]

公司名称海光信息技术股份有限公司
英文名Hygon Information Technology Co., Ltd.
成立时间2014年
上市时间2022年8月(科创板,688041.SH)
总部天津
第一大股东中科曙光(持股27.96%)[20346]
实际控制人无实际控制人(中科院计算所通过中科曙光间接影响)
2025年营收143.77亿元,同比+56.92% [20001]
2025年净利润25.45亿元,同比+31.79% [20001]
2026年Q1营收40.34亿元,同比+68.06% [20057]
研发投入2025年全年45.69亿元,同比+32.58% [20051]
员工约1,100+人(研发占比约80%)

数据来源:[20001]

架构师评注:海光DCU的本质是“站在AMD肩膀上的GPGPU”。与寒武纪从零自研指令集、华为昇腾自研达芬奇架构不同,海光选择了“引进-消化-吸收-再创新”的路径——DCU硬件源自AMD CDNA(MI100系列)架构的授权和吸收,软件栈则基于ROCm生态深度定制。这条路线的优势是软件兼容性极好(CUDA代码迁移成本极低),劣势是核心技术根基受制于AMD授权框架,且在2019年实体清单后已无法获得AMD新一代架构(CDNA2/CDNA3)的技术支持。

4.6.2. 创始团队和核心成员背景

海光信息的核心团队具有鲜明的“中科院系”烙印,管理层主要来自中科曙光体系。

唐志敏(核心技术奠基人):中科院计算所研究员,曾担任龙芯CPU(龙芯一号、二号)首席科学家,是国产CPU领域最具传奇色彩的技术人物之一。2014年中科院参与设立海光信息后,唐志敏于2015年出任海光信息负责人,主导了海光一号CPU和海光一号DCU的技术路线设计与研发[20172]。唐志敏现已逐步退出海光日常管理,但其技术框架奠定了海光DCU的底层架构走向。

沙超群(现任董事、总经理):1977年生,北京理工大学工学硕士,教授级高级工程师。2011-2020年历任中科曙光技术副总裁、高级副总裁,2019年12月起任海光信息总经理。沙超群是海光从“技术引进”到“自主迭代”阶段的核心操盘手[20179]

孟宪棠(董事长):香港科技大学工商管理硕士,曾任国家发改委处长、副巡视员、国科控股副总经理、中科可控董事。其政企资源背景为海光在信创市场的开拓提供了战略支撑[20177]

核心团队特点:海光高管多具有中科院任职经历,核心技术团队中不乏曾任职于Intel、AMD等海外龙头公司的工程师[20182]。公司整体呈现“中科院系+政企资源+产业经验”的复合型团队特征。

架构师评注:海光团队的独特之处在于“双轨制”——唐志敏(龙芯之父)提供CPU/DCU底层架构基因,沙超群(曙光系)负责商业化和工程落地。这种配置让海光在CPU和DCU两个领域都能保持迭代节奏。但需要指出的是,唐志敏退出后,海光在 前沿架构创新 方面的内生动力可能有所减弱——深算系列至今仍延续CDNA1架构框架,未见颠覆性架构创新。

4.6.3. 发展历程

海光DCU的发展历程与海光CPU同步推进,但技术来源和演进路径有所不同:

时间关键事件
2014年海光信息成立,由中科曙光联合天津海泰科技投资、中科院计算所等共同设立[20349]
2016年与AMD成立合资公司,获x86和Zen架构授权(2.93亿美元),同时启动海光一号CPU设计[20133]
2018年海光一号CPU量产;同年启动深算一号DCU产品设计[20081]
2019年6月被美国列入实体清单,AMD停止所有技术交流和新IP授权[20267]
2021年深算一号DCU实现商业化应用,成为国内首款量产GPGPU[20090]
2022年8月科创板上市,募资约91.5亿元[20201]
2023年Q3深算二号DCU发布并商用,性能较深算一号提升100%以上[20031]
2024年深算二号规模化出货,DCU营收占比提升至约25%[20253]
2025年深算三号DCU投入市场;发布HSL 1.0互联总线协议;海光DCU覆盖20+行业、300+应用场景[20035]
2025年12月海光信息发布“双芯战略”(CPU+DCU)[20220]
2025年5月宣布拟吸收合并中科曙光(后调整为战略协同)[20354]
2026年Q1深算三号放量出货,DCU全面适配DeepSeek、Qwen3等300+主流大模型[20057]

数据来源:综合整理

关键转折点分析:2019年实体清单是海光DCU发展史上最重要的分水岭。AMD停止技术交流后,海光被迫独立迭代。这对DCU的影响比CPU更大——CPU方面海光基于Zen1架构已积累足够消化能力;但DCU方面,AMD CDNA架构后续演进了CDNA2(MI200系列)和CDNA3(MI300系列),海光无法获得这些新架构的Matrix Core、统一内存等技术,DCU架构演进面临“断奶”挑战[20269]

第二个转折点 是2024-2025年的AI大模型爆发。海光DCU凭借“类CUDA”兼容性,成为互联网大厂在NVIDIA受限后 最易迁移的国产替代方案,字节跳动、阿里、腾讯、百度等头部客户纷纷入场适配[20059]

4.6.4. 最新产品系列

海光DCU采用8000系列命名,已迭代三代量产产品,第四代在研。产品线覆盖从32GB HBM2到128GB HBM3E的完整梯度。

4.6.5. 深算系列DCU全产品线

参数深算一号 DCU 8000深算二号 DCU 8200深算三号 DCU 8300深算四号(在研)
制程7nm FinFET7nm+5nm(等效)预计更先进节点
计算单元64 CUs(4096核心)未公开(估计~80-96 CUs)未公开未公开
FP6410.1 TFLOPS~20 TFLOPS(估)未公开未公开
FP3211.5 TFLOPS~23 TFLOPS(估)未公开未公开
FP16/BF1624.5 TFLOPS256 TFLOPS512 TFLOPS目标更高
INT8未公开256 TOPS(估)512 TOPS未公开
显存32GB HBM296GB HBM3128GB HBM3E未公开
显存带宽1,024 GB/s未公开(估1.2-1.5 TB/s)~1,200 GB/s未公开
显存位宽4,096 bit未公开未公开未公开
TDP350W300-350W250-350W未公开
互联PCIe Gen4 x16PCIe Gen4/5 + 多卡互联互联带宽较前代提升2倍未公开
量产时间2021年2023年Q32025年Q2-Q3预计2026-2027
相对A100性能~40-50%~80%目标对标A100目标对标H200

数据来源:综合[20152]

深算一号详细参数(招股书数据 vs A100对比):

项目深算一号NVIDIA A100差距
制程7nm7nm持平
核心数64 CUs / 4096核6912 CUDA + 432 Tensor架构不同,不可直接对比
FP6410.1 TFLOPS9.7 TFLOPS略优
FP3211.5 TFLOPS19.5 TFLOPS~59%
FP1624.5 TFLOPS312 TFLOPS(含Tensor Core)~8%(无Tensor等效)
显存32GB HBM280GB HBM2e40%
显存带宽1,024 GB/s2,039 GB/s~50%
多卡互联184 GB/s600 GB/s(NVLink)~30%

数据来源:[20152]

4.6.6. K100 AI推理卡

除深算系列外,海光还推出了面向推理场景的K100/K100AI系列:

参数K100K100 AI
FP3210.1 TFLOPS49 TFLOPS
TF32-96 TFLOPS
FP16/BF16-192 TFLOPS
INT8-392 TOPS
显存64GB64GB
显存带宽896 GB/s896 GB/s
TDP400W400W
相对A100性能-~60%

数据来源:[20321]

架构师评注:深算一号的FP16算力(24.5 TFLOPS)与A100(312 TFLOPS)差距巨大,这是因为深算一号的FP16是 纯向量ALU算力,而A100的312 TFLOPS来自Tensor Core的矩阵乘法加速。深算二号/三号在这个维度上大幅追赶(256/512 TFLOPS),说明海光在DCU中引入了类似Tensor Core的矩阵加速单元。但需要注意的是,这些FP16数字来自券商和产业链估计,官方未完整披露,需进一步核验。

4.6.7. 产品技术特点

4.6.8. 硬件架构

海光DCU的硬件架构源自AMD CDNA(Compute DNA)架构,核心特征包括:

  • 大规模并行计算阵列:DCU基于DPP(Data Parallel Processor)阵列组织,通过计算单元流水线并行处理数据流[20017]。以深算一号为例,集成64个计算单元(CU),每个CU内部包含多个SIMD执行单元,总计约4,096个计算核心[20075]

  • 全精度支持:支持FP64、FP32、FP16、BF16、INT8、INT4全精度计算,在HPC科学计算领域具有天然优势[20075]

  • HBM高带宽内存:集成片上HBM2/HBM2e/HBM3,满足大规模数据并行计算需求。

  • Chiplet技术储备:海光已掌握chiplet(芯粒)互联技术,在CPU和DCU产品中均有应用前瞻布局[20217]

4.6.9. 软件生态:DTK + ROCm

这是海光DCU最核心的竞争力。海光基于AMD ROCm开源生态,自主研发了 DTK(DCU Toolkit) 软件栈:

  • DTK架构:底层兼容ROCm,上层封装自研优化库,提供HIP(Heterogeneous-compute Interface for Portability)编程模型。HIP与CUDA API高度相似,支持 码级兼容[20100]

  • CUDA迁移能力:通过hipify-clang工具可自动将CUDA代码转换为HIP代码,官方宣称迁移成本低至 15人天[20096]。自主开发HACC编译器支持类CUDA代码转化率超86%[20298]

  • 框架支持:全面支持PyTorch、TensorFlow、PaddlePaddle等主流深度学习框架。PaddlePaddle已官方支持海光DCU[20095]

  • 推理引擎:提供migraphx推理引擎,可直接加载ONNX模型[20293]

  • 虚拟化:支持vDCU(虚拟DCU)技术,可在Kubernetes集群中实现细粒度GPU资源切分(如按计算核心百分比和显存MB分配)[20019]

  • 关键限制:DTK不能与社区版ROCm混用,必须使用海光官方版本,这在一定程度上限制了开源社区生态的灵活性[20096]

4.6.10. 互联技术:HSL总线

2025年12月,海光发布 HSL 1.0(Hygon System Link) 互联总线协议,这是海光在系统级互联方面的重要布局:

  • 涵盖完整总线协议栈、IP参考设计及指令集
  • 实现CPU与DCU及其他加速器间的“紧耦合”
  • 对标NVIDIA NVLink和NVSwitch体系
  • 已向产业链开放,推动生态共建[20040]

4.6.11. 与AMD/NVIDIA的技术对应关系

海光产品技术渊源对标NVIDIA对标AMD
深算一号AMD CDNA (MI100) 授权框架A100 (性能约40-50%)MI100
深算二号自主迭代优化A100 (性能约80%)MI200系列
深算三号自主迭代A100/A800MI250X
深算四号自主迭代目标H200MI300X(间接)
DTK软件栈ROCm深度定制CUDAROCm

架构师评注:海光DCU的“类CUDA”标签需要谨慎理解。它不是CUDA的逆向工程或兼容层,而是 通过ROCm/HIP生态实现与CUDA开发体验的相似性。这带来的好处是:开发者从CUDA迁移到ROCm再迁移到DTK,学习成本远比迁移到华为CANN或寒武纪Neuware低。但代价是:海光DCU的性能优化受限于ROCm生态的成熟度,而ROCm本身在NVIDIA CUDA面前仍有较大差距。

4.6.12. 软件生态详析

4.6.13. DTK与CUDA的迁移路径

海光DCU的CUDA迁移路径如下:

NVIDIA CUDA代码 → hipify-clang工具 → HIP代码 → DTK编译 → 海光DCU运行

这一路径的优势在于:

  • 代码修改量小(官方宣称15人天完成迁移)
  • HIP API与CUDA API高度相似,开发者学习曲线平滑
  • 支持PyTorch、TensorFlow等框架的ROCm后端直接运行

劣势在于:

  • 并非100% CUDA兼容,部分CUDA特性(如Dynamic Parallelism、CUDA Graphs等)需要额外适配
  • 性能优化仍需针对DCU硬件特性手动调优
  • DTK版本更新滞后于ROCm上游,且不支持社区版ROCm[20096]

4.6.14. 大模型适配

截至2025年末,海光DCU已完成与DeepSeek、Qwen3、LLaMa、GPT、ChatGLM、文心一言、通义千问等 300+主流大模型 的适配[20057]。2025年2月,海光DCU完成DeepSeek V3和R1模型的国产化适配并正式投入使用[20056]。2026年5月,海光DCU完成腾讯混元Hy3 Preview适配[20057]

4.6.15. 开发者社区

海光通过“光源-光合开发者社区”(sourcefind.cn)提供模型仓库、Docker镜像、开发文档等资源,DTK版本已迭代至25.04,支持PyTorch 2.1.0等主流版本[20106]

4.6.16. 商业化与客户

4.6.17. 商业化进展

海光DCU的商业化呈现“起步晚、加速快”的特征:

  • 2021年深算一号商业化,主要面向超算/HPC领域
  • 2023年深算二号发布,开始进入AI训练/推理市场
  • 2025年深算三号进入市场,全面进入互联网大厂供应链
  • 截至2025年末,DCU已在20+关键行业、300+应用场景落地[20050]

4.6.18. 主要客户

客户类型代表客户合作内容
互联网字节跳动、腾讯、阿里、百度DCU大模型训练/推理适配,深度合作[20059]
运营商三大运营商AI服务器采购、智算中心建设[20123]
金融国有银行金融风控等场景[20050]
政府国家税务总局、海关总署、各地政府政务AI应用[20050]
超算国家级超算中心HPC科学计算集群[20223]

关键客户进展:字节跳动、阿里云已完成深算三号测试,双方保持月度技术沟通;阿里计划2025年采购1万片[20047]。运营商和政府领域预计采购5万片[20047](此数据需进一步核验,来源为知乎,非官方公告)。

4.6.19. 商业模式

主要采用直销模式,2024年直销收入占比超过84%[20262]。DCU产品以加速卡形式销售,搭配海光CPU平台形成“CPU+DCU”一体化方案。

4.6.20. 财务、营收、融资与估值

指标2023年2024年2025年2026年Q1
营业收入60.12亿元91.62亿元143.77亿元40.34亿元
同比增速-+52.40%+56.92%+68.06%
归母净利润12.63亿元19.31亿元25.45亿元6.87亿元
研发投入-34.46亿元45.69亿元-
研发投入占比-37.6%31.8%-
毛利率-63.72%~63%~61.7%

数据来源:[20001]

DCU收入占比:2024年DCU收入占比约25%[20253],按此推算2024年DCU收入约23亿元。2025年随着深算三号放量,DCU占比有望进一步提升至30-35%区间(券商估算,非官方披露)。

融资与估值

  • 2022年科创板IPO募资约91.5亿元[20201]
  • 2025年市值一度突破4,300亿元[20127]
  • 2025年9月推出限制性股票激励计划,业绩考核目标为2025/2026/2027年营收目标增长率分别达55%/125%/200%[20037]

券商预测:东海证券预计2025-2027年营收分别为143.05/207.76/287.59亿元[20249]

4.6.21. 核心竞争力

  1. “类CUDA”生态兼容性:国产AI芯片中CUDA迁移成本最低,这是海光DCU相比华为昇腾(CANN)、寒武纪(Neuware)的最大差异化优势。开发者无需学习全新软件栈即可将现有CUDA应用迁移到国产平台。

  2. “CPU+DCU”双芯协同:海光是国内唯一同时拥有x86 CPU和GPGPU能力的公司。CPU的生态优势(兼容Windows/Linux、数百万x86应用软件)为DCU的推广提供了天然的系统级整合基础[20227]

  3. HSL互联总线:自研CPU-DCU高速互联协议,正在构建类似NVIDIA NVLink的系统级互联能力,这在国产算力中具备稀缺性[20227]

  4. HPC+AI双覆盖:DCU全精度(FP64/FP32/FP16/INT8)计算能力使其同时覆盖HPC科学计算和AI训练推理,应用场景比纯AI加速器更广。

  5. 中科院系背景:深度绑定中科院计算所和曙光体系,在信创市场和超算中心建设中具有先天优势。

  6. 上市公司平台:相比多数未上市的国产GPU创业公司,海光拥有更强的融资能力和抗风险能力。

4.6.22. 主要短板

  1. 架构根源受制于AMD:DCU架构源自AMD CDNA1授权框架,2019年实体清单后无法获得CDNA2/CDNA3新技术。深算系列至今仍是CDNA1的“魔改”版本,在Matrix Core、统一内存架构等前沿特性上与AMD MI300X差距巨大[20280]

  2. 训练能力受限:有产业观点认为,海光DCU在训练方面“高不成、低不就”——浮点性能偏低且集群组网能力不足,不适合大规模模型训练[20292]。虽然深算三号大幅提升,但官方未披露大规模集群训练的实际效率数据。

  3. 客户集中度极高:前五大客户营收占比超过90%[20248],单一客户依赖风险显著。

  4. 软件生态成熟度:相比CUDA生态,DTK仅覆盖约60%的AI开发场景,第三方工具链支持仍需完善[20113]

  5. 存货风险:57.94亿元存货相当于约6个月销量,在芯片迭代加速背景下存在减值风险[20218]

  6. x86授权风险:虽然海光宣称x86授权为永久授权,但中美科技博弈加剧背景下,授权续存仍存在不确定性[20137]

4.6.23. 供应链风险

海光DCU的供应链风险是国产GPU公司中 最复杂 的之一:

风险维度具体风险严重程度
代工先进制程(7nm/5nm)依赖台积电/中芯国际,受实体清单限制🔴高
HBMHBM2e/HBM3/HBM3E全部依赖海外(SK海力士/三星/美光),2024年12月美国对HBM实施新出口管制🔴高
EDA工具依赖Synopsys/Cadence,实体清单后受限🟡中
AMD授权无法获得新架构授权,长期自主迭代能力存疑🟡中
IP核部分高速接口IP(PCIe、HBM PHY等)依赖海外供应商🟡中

关键风险点:2024年12月美国升级对华半导体管制,新增对HBM的出口管控[20115]。海光DCU深算三号使用HBM3E,深算四号预计需要更先进的HBM,HBM供应中断可能导致高端产品线停滞。海光已通过提前囤货HBM来应对,但长期可持续性存疑。

4.6.24. 与NVIDIA/AMD/Intel的对应关系

维度海光DCUNVIDIAAMDIntel
架构路线GPGPU (CDNA1衍生)CUDA GPU (Hopper/Blackwell)CDNA3 GPUXe GPU / Gaudi ASIC
软件栈DTK(基于ROCm)CUDAROCmoneAPI
CPU+加速器协同海光CPU + DCUGrace + Hopper/BlackwellEPYC + InstinctXeon + Gaudi
互联总线HSLNVLink/NVSwitchInfinity FabricUPI
制程7nm/5nm (SMIC)4nm (TSMC)5nm/4nm (TSMC)7nm/5nm (TSMC)
生态兼容性类CUDA(通过HIP)原生CUDA类CUDA(通过HIP)跨架构
训练性能A100的40-80%(估)基准接近NVIDIA追赶中
推理性能A100的60-80%(估)基准接近NVIDIA追赶中

架构师评注:海光DCU在国产AI芯片中与NVIDIA的“亲缘关系”最近——不是指性能接近,而是指 软件生态和开发体验的相似性。这是海光最大的战略价值:当一家公司从NVIDIA切换到国产芯片时,迁移到海光DCU的代码改动量最小、工程师培训成本最低、已有工具链可最大程度复用。这种“软着陆”能力在信创替代场景中是华为昇腾、寒武纪等自研指令集架构所不具备的。

4.6.25. 未来3年判断

2026年

  • 深算三号持续放量,DCU营收占比有望提升至35-40%
  • 海光-曙光战略协同深化,HSL生态初步成型
  • 深算四号流片,目标5nm等效工艺
  • 与字节、阿里、腾讯等互联网大厂的合作从“适配验证”进入“规模化采购”阶段

2027年

  • 深算四号量产,性能目标对标H200的60-70%
  • DCU成为海光营收增长的主要驱动力(DCU占比有望突破50%)
  • “CPU+DCU”一体化方案(UMA统一内存架构)可能亮相
  • 面临HBM供应链压力的临界点:要么国产HBM突破,要么DCU高端线受限

2028年

  • 如果国产HBM实现突破,海光DCU有望进入第一梯队
  • 如果HBM持续受限,海光可能被迫向中低端推理市场收缩
  • 与曙光整合后的全栈能力(芯片→服务器→集群→云平台)将成为核心壁垒

关键变量

  1. 国产HBM能否在2027年前量产
  2. 中芯国际5nm等效工艺的良率和产能
  3. AMD CDNA架构授权的“消化吸收”是否真的实现了完全自主迭代
  4. 互联网大厂的采购规模能否从“验证性采购”转为“主力采购”

架构师总结:海光DCU是国产AI芯片中 最务实的路线选择。它不追求架构的自研纯洁性,而是以“最快可用”为目标,通过ROCm生态解决了国产芯片最致命的软件生态问题。在当前美国持续收紧芯片出口管制的背景下,海光DCU的“类CUDA”兼容性使其成为互联网大厂最现实的NVIDIA替代方案。但长期来看,海光DCU面临的核心矛盾是:CDNA1架构框架的“天花板”何时到来? 当NVIDIA Blackwell和AMD MI400系列将架构代差拉大到2-3代时,海光的“魔改CDNA1”路线还能否保持竞争力?这是所有投资人需要持续跟踪的核心问题。


注:本报告中部分DCU性能参数(如深算二号/三号FP16算力、显存带宽等)来自券商研报和产业链估计,海光官方未完整披露,需进一步核验。采购数据(如“阿里计划采购1万片”)来自非官方渠道,仅供参考。

4.7. 景嘉微

同上

4.7.1. 景嘉微 Jingjia Micro

定位:中国第一家实现GPU芯片自主研制并量产上市的国产GPU企业,也是唯一一家以“军工图形显控为基本盘、民用信创GPU为增长极、AI智算为第三曲线”的独特“军转民”国产GPU厂商。
核心判断:景嘉微是中国国产GPU的“活化石”——从2006年创立到2014年JM5400流片,再到2025年JM11和CH37,19年坚守GPU赛道,堪称国内GPU创业的“孤勇者”。但“先行者”不等于“领先者”——在摩尔线程、壁仞等后浪以“对标H100/B200”高调出场的时代,景嘉微的JM11仍停留在FP32 6 TFLOPS、DDR4显存的技术区间,与NVIDIA的代际差距清晰可见。景嘉微的真正价值不在于“追平NVIDIA”,而在于它是中国唯一一个从军用机载图显到信创桌面再到AI智算全覆盖的“全栈国产GPU”平台——这种“从最底层向上生长”的基因,是其他国产GPU厂商所不具备的。


4.7.1.1. 公司概况

长沙景嘉微电子股份有限公司(Jingjia Microelectronics Co., Ltd.)成立于2006年4月,总部位于湖南省长沙市,2016年3月在深交所创业板上市,股票代码300474,是中国A股市场第一家、也是长期唯一的GPU芯片设计上市公司 [20376]。公司采用Fabless模式,主要从事高可靠电子产品的研发、生产和销售,产品涉及 图形显控领域小型专用化雷达领域GPU芯片领域 三大业务板块 [20544]

景嘉微的市场定位极为独特:它既不是纯粹的“AI芯片公司”(如寒武纪),也不是“全功能GPU公司”(如摩尔线程),而是一家 从军工图显出发、逐步向民用信创和AI算力延伸的“专用+通用”双轨GPU企业。在国产GPU厂商中,景嘉微是唯一一家同时具备以下三个标签的公司:

  • 🎖️ 军工图显绝对龙头:在国内军用飞机图形显控模块市场占据85%以上的份额,JM5400被用于神舟飞船等多项国家重大工程 [20547]
  • 🖥️ 信创GPU核心供应商:JM7200/JM9系列在党政、金融、能源等信创领域广泛落地
  • 🧠 AI算力新进入者:2024年推出景宏系列AI智算模块,2025年子公司诚恒微CH37边端侧AI SoC点亮

公司目前处于“以军养民、以芯拓AI”的转型关键期——图形显控和雷达基本盘贡献稳定现金流,但整体体量较小(2025年营收7.20亿元),GPU芯片业务和AI新业务尚未形成规模收入 [20705]


4.7.1.2. 创始团队和核心成员背景

景嘉微的创始团队带有鲜明的 国防科技大学 基因,与华为的“黄埔军校”渊源相同,但团队更偏军工电子和嵌入式系统背景,而非GPU架构或AI计算出身。

角色姓名背景
创始人/董事长/总经理曾万辉1970年生,湖南娄底新化人,国防科技大学微波与毫米波技术专业硕士。1995-2005年在北京新神剑经济技术发展有限公司任市场部经理。2006年加入饶先宏和胡亚华创办的景嘉微,出资并担任董事长。带领团队从零研制出JM5400等自主可控GPU芯片 [20386]
副董事长/实控人之一喻丽丽1968年生,曾万辉妻子,高中学历(令人惊讶的学历背景),与曾万辉共同为公司实际控制人。夫妇合计直接+间接持有公司约36.68%的股份 [20395]
联合创始人饶先宏国防科技大学校友,负责软件开发,持股约3.15% [20390]
联合创始人胡亚华国防科技大学校友,负责硬件开发,持股约3.64% [20390]

创始团队的故事颇具传奇色彩:2006年,曾万辉与国防科大校友胡亚华、饶先宏彻夜长谈后决定出资加入。创业初期,曾万辉负责市场开拓但不领工资,饶先宏和胡亚华每人每月仅拿3000元 [20390]。公司最早接到一家研究所委托开发显卡驱动软件,这让团队意识到GPU芯片的巨大潜力,从此将资源集中于GPU研发 [20387]

团队评价:创始团队背景稳健但偏传统——核心成员来自国防科大微波/毫米波和嵌入式系统领域,而非GPU架构、图形学或AI计算方向。这与摩尔线程(NVIDIA核心团队创业)、壁仞(国际大厂架构师创业)形成鲜明对比。这种基因决定了景嘉微更擅长“从0到1的自主突破”和“高可靠军工级产品”,但在“高性能通用GPU架构”和“AI软件生态”方面存在天然短板。

2023年,曾万辉、喻丽丽夫妇以110亿元财富位列胡润全球富豪榜第2067位;2025年以170亿元财富位居第1624位 [20399]


4.7.1.3. 发展历程

景嘉微的发展史几乎就是中国国产GPU从无到有的完整缩影,也是为数不多真正经历过“从零研制GPU”全过程的公司。

时间里程碑
2006年4月公司成立,饶先宏、胡亚华出资设立,曾万辉同年注资加入 [20397]
2010年获国家“核高基”重大专项立项,开始研制自主知识产权GPU芯片 [20568]
2014年4月第一代GPU芯片 JM5400 流片成功,国内首款完全自主知识产权GPU,打破国外垄断,先后应用于国产军用飞机和神舟飞船 [20565]
2016年3月深交所创业板上市,成为“A股GPU第一股” [20394]
2018年8月第二代GPU芯片 JM7200(28nm制程)流片成功,性能较JM5400翻倍,开始进入民用桌面市场 [20565]
2019年JM7201商用版推出,支持国产CPU和操作系统,开启信创市场布局 [20572]
2021年11月第三代GPU芯片 JM9系列(JH920)完成流片,性能对标GTX 1080区间,兼顾高性能显示与AI计算 [20565]
2021年12月被美国商务部列入实体清单,获取涉及美国管制的商品、软件和技术受限 [20483]
2023年5月发布定增预案,拟募资不超过42亿元,投向高性能通用GPU芯片研发及产业化项目 [20583]
2024年3月景宏系列 高性能智算模块及整机产品研发成功,填补AI训练/推理/科学计算领域产品空白 [20503]
2024年10月38.33亿元定增资金到账,葛卫东以6亿元参与认购 [20683]
2024年12月第四代GPU芯片 JM11系列 完成流片、封装,初步测试未发现异常 [20445]
2025年1月JM11系列测试指标公布:FP32 6 TFLOPS、FP16 12 TFLOPS、像素填充率192 GPixel/s [20663]
2025年8月拟以2.2亿元增资控股子公司诚恒微,进军边端侧AI芯片领域 [20423]
2025年12月诚恒微CH37系列边端侧AI SoC芯片成功点亮,64 TOPS@INT8 [20425]
2026年5月湖南省2026年十大技术攻关项目“具身智能机器人多模态高性能SOC芯片研发”启动会在景嘉微召开 [20633]

研发节奏变化值得关注:JM5400研发耗时8年,JM7200耗时4年,JM9系列约3年,JM11约3年——研发周期在缩短,但仍在“3年一代”的节奏,与摩尔线程“一年一代架构”的速度形成鲜明对比 [20571]


4.7.1.4. 最新产品系列

4.7.1.5. GPU芯片产品矩阵

景嘉微的GPU芯片形成了JM5/JM7/JM9/JM11四大代际产品线,从65nm到未公开制程,覆盖从军工嵌入到云端渲染的完整场景。

芯片代型号年份制程FP32算力显存功耗对标目标市场
第一代JM5400201465nm~1.5 TFLOPS1GB DDR36WATI M96军用机载图显
第二代JM7200/JM7201201828nm~0.5 TFLOPS4GB DDR310-20WNVIDIA GT640信创桌面办公
第三代JM9系列(JM9230/JM9271)202114nm1.5-8 TFLOPS8-16GB30WGTX 1050-1080信创+高性能显示+AI计算
第四代JM11系列2024未公开(~14nm/7nm)6 TFLOPS最大64GB DDR4/LPDDR4<150WRTX 2060-3060区间云端渲染/云桌面/虚拟化

4.7.1.6. JM11系列详细参数

2025年1月17日,景嘉微正式公告JM11系列测试指标,这是目前公开信息最完整的国产GPU规格之一 [20663]

参数规格
核心频率1.5 GHz
FP32算力最大 6 TFLOPS
FP16算力最大 12 TFLOPS
像素填充率最大 192 GPixel/s
显存位宽1024 bit DDR4/LPDDR4
显存容量最大 64 GB
主机接口PCIe 4.0 x16
视频编码8路4K@60fps / 32路1080P@60fps (H.265/H.264)
视频解码16路4K@60fps / 64路1080P@60fps (H.265/H.264/MPEG2/MPEG4)
硬件虚拟化SR-IOV,最大支持32路云桌面/64路云游戏
显示接口HDMI 2.0×4 / eDP 1.2×2 / VGA×1,最大分辨率3840×2160@60Hz
图形APIOpenGL 4.6 / OpenCL 3.0 / Vulkan 1.3 / DirectX 11
功耗<150W

架构师点评:JM11的1024bit DDR4显存位宽是一个很有意思的设计选择——在无法使用HBM且GDDR6供应受限的情况下,用“超宽位宽+DDR4”来弥补带宽不足。这种“用面积换带宽”的策略在嵌入式/军工场景中常见,但在数据中心GPU中非常罕见,说明JM11本质上仍是一款 以图形渲染和虚拟化为主、兼顾轻度计算 的产品,而非真正的AI训练/推理加速器。

4.7.1.7. 景宏系列——AI算力破局

2024年3月,景嘉微推出 景宏系列高性能智算模块及整机产品,这是公司从图形GPU向AI算力领域跨越的关键一步 [20503]

  • 支持INT8、FP16、FP32、FP64等混合精度运算
  • 支持全新的多卡互联技术进行算力扩展
  • 适配国内外主流CPU、操作系统及服务器厂商
  • 能够支持当前主流的计算生态、深度学习框架和算法模型库
  • 面向AI训练、AI推理、科学计算等应用领域

2025年,景嘉微发布了 全国产AI加固服务器,单机最高可搭载2000 TOPS算力与256GB高速显存,预置DeepSeek大模型,单机可驱动DeepSeek-R1 70B蒸馏模型推理,支持200+用户高并发访问 [20531]

⚠️ 需要警惕的是:景宏系列公告中 未披露具体的算力指标、芯片型号、制程工艺和集群规模,这在AI算力产品中是极不寻常的。公开资料极为有限,无法判断其实际性能水平。需进一步核验:景宏系列究竟是基于JM11的模块化封装,还是基于全新芯片架构?

4.7.1.8. CH37——边端侧AI SoC

2025年12月15日,景嘉微控股子公司无锡诚恒微电子有限公司自主研发的边端侧AI SoC芯片 CH37系列 完成流片、封装、回片及点亮 [20425]

参数规格
架构自主架构,单芯片集成CPU+GPU+NPU+GPGPU+ISP
AI算力64 TOPS @INT8
目标场景具身智能、边缘计算、机器人、AI盒子、智能终端、无人机吊舱
差异化双模融合ISP架构

CH37的64 TOPS算力在边缘AI芯片中属于中上水平(对标地平线征程6、高通SA8295等),但GPU+NPU+GPGPU的异构架构设计具有一定差异化优势 [20434]


4.7.1.9. 产品技术特点

4.7.1.10. 架构路线:全自研正向设计

景嘉微的GPU架构采用 完全自主研发的正向设计 路线,不依赖任何第三方GPU IP授权。GPU领域的指令集不像CPU那样有ARM/x86等对外授权模式,各公司均独立研发,不对外公布 [20630]。这意味着景嘉微掌握了从指令集定义、微架构设计到物理实现的全栈能力——这是国产GPU厂商中极为稀缺的底层能力。

4.7.1.11. 技术路线的独特之处

景嘉微的GPU技术演进路径与主流厂商截然不同:

  1. 从军用嵌入到云端的逆向路径:大多数GPU公司(如NVIDIA)是从游戏显卡起家,逐步拓展到数据中心。景嘉微则是从军用机载嵌入式计算(-55°C到+125°C、高可靠性、抗辐射)起步,向下兼容到桌面,再向上拓展到云端。这种路径决定了其芯片在 可靠性、功耗控制和极端环境适应性 方面具有独特优势,但在 峰值性能、软件生态和先进制程 方面天然落后。

  2. “图形优先”的架构设计:JM11的核心优势在于图形渲染(像素填充率192 GPixel/s)、视频编解码(32路编码/64路解码)和硬件虚拟化(SR-IOV),而非矩阵乘法或张量计算。这使其在云桌面、云游戏、工业渲染等场景具有竞争力,但 不适合大模型训练

  3. DDR4显存体系的“带宽短板”:JM11采用1024bit DDR4/LPDDR4显存,带宽约119.4 GB/s,仅为NVIDIA H100(HBM3 3.35 TB/s)的约3.6%。即便是消费级的RTX 4060,其GDDR6带宽也达到272 GB/s。这是JM11在AI计算中的最大瓶颈。

4.7.1.12. 性能定位

维度JM11水平NVIDIA对标差距
图形渲染192 GPixel/sRTX 2060(~80 GPixel/s)纸面接近,驱动适配是变量
FP32算力6 TFLOPSRTX 2060(~6.5 TFLOPS)接近
显存带宽~119 GB/sRTX 3060(~360 GB/s)约1/3
AI训练不支持(无FP8/BF16高效支持)H100(FP8 1979 TFLOPS)代差巨大
制程未公开(14nm/7nm)4nm(RTX 40系列)2-3代差距

综合评价:JM11在图形渲染和视频处理能力上已接近NVIDIA中端消费级产品(RTX 2060/3060区间),但在AI计算方面存在结构性短板——DDR4带宽、无FP8原生支持、无Tensor Core等效单元,使其无法参与大模型训练竞争。JM11是一款好用的“国产云桌面/云渲染GPU”,但远不是“AI加速器”。


4.7.1.13. 软件生态

景嘉微的软件生态建设是国产GPU中最“朴实”但也是最“薄弱”的环节之一。

4.7.1.14. 驱动和API支持

维度状态
图形APIOpenGL 4.6、Vulkan 1.3、DirectX 11 [20665]
计算APIOpenCL 3.0 [20665]
操作系统Windows、Linux、中标麒麟、银河麒麟、统信UOS [20534]
CPU架构X86、ARM、MIPS [20534]
驱动更新频率约半年一次,可根据客户需求不定期更新 [20534]
虚拟化SR-IOV硬件虚拟化,支持32路云桌面/64路云游戏 [20665]
AI框架景宏系列支持主流计算生态和深度学习框架(具体框架未公开)[20528]

4.7.1.15. 生态建设方式

景嘉微的生态策略与摩尔线程截然不同:摩尔线程自研MUSA软件栈对标CUDA,目标是“国产CUDA替代”;景嘉微则走的是 “适配兼容”路线——与国内主要CPU厂商(龙芯、飞腾、鲲鹏、兆芯等)、操作系统厂商(麒麟、统信)和整机厂商(长城、浪潮、宝德等)开展广泛适配,构建国产化计算机应用生态 [20537]

2025年,景嘉微与安超云软件、长春吉大正元、苍穹数码等企业达成战略合作,聚焦党政、央国企、公检法、智慧城市、应急救援、低空经济等行业场景,形成“GPU+云OS”一体化交付方案 [20626]

  • 信创办公场景:★★★★☆ —— 适配充分,满足基本需求
  • 图形渲染/专业软件:★★★☆☆ —— 支持主要API,但专业ISV认证不足
  • AI训练/推理:★★☆☆☆ —— 框架支持有限,无自研AI编译器栈
  • HPC/科学计算:★★☆☆☆ —— 仅OpenCL,无CUDA/Fortran生态
  • 游戏/DX12:★★☆☆☆ —— DirectX 11,无DX12 Ultimate支持

4.7.1.16. 商业化与客户

4.7.1.17. 三大业务收入结构

景嘉微的业务结构正在经历剧烈变化。根据2025年年报,三大业务板块的收入情况如下 [20705]

业务板块2025年营收同比增长占比
图形显控领域产品4.51亿元+84%62.6%
小型专用化雷达未单独披露恢复增长~15%
芯片领域产品(GPU)同比下降下滑~19%
其他大幅收缩~3%

2024年,图形显控营收2.45亿元(同比-47.27%),芯片营收1.35亿元(同比+33.72%)[20703]。2025年图形显控大幅反弹(+84%),但芯片业务反而下滑,说明 GPU芯片在通用市场的拓展仍面临较大阻力 [20714]

4.7.1.18. 客户结构

  • 军工客户:图形显控模块的主要客户为国内军工企业,在国产军用飞机专用显控市场占据极高占有率(85%+),是公司的“压舱石”业务 [20547]
  • 信创客户:通过与中国长城、神州数码、浪潮等整机厂商合作,进入党政、金融、能源、电信、轨交等信创市场 [20652]
  • AI算力客户:景宏系列和AI加固服务器正在推广中,具体客户名单未公开
  • 合作伙伴:安超云、吉大正元、苍穹数码等(JM11推广)[20626]

4.7.1.19. 商业化阶段判断

  • 图形显控:成熟期,稳定贡献营收,毛利率60%+
  • 信创GPU:成长期,JM7200/JM9系列已批量出货,但面临信创招标节奏波动
  • AI算力:导入期,景宏系列研发成功但尚未形成规模收入,需进一步核验实际客户数量和交付量
  • 边端AI:种子期,CH37完成点亮,距量产和商业闭环仍有距离

4.7.1.20. 财务、营收、融资或估值信息

4.7.1.21. 关键财务数据(2022-2025)

年份营收净利润毛利率研发费用研发费用率
2022~11.5亿元~2.9亿元~60%+~2.5亿元~23%
20237.13亿元~0.60亿元下降3.31亿元46.44%
20244.66亿元-1.65亿元下降~2.8亿元~60%
20257.20亿元-1.65亿元下降4.28亿元59.39%

来源:2022-2024年报 [20464],2025年报 [20705]

4.7.1.22. 财务特征分析

  1. 营收剧烈波动:2022年营收约11.5亿元,2024年降至4.66亿元,2025年回升至7.20亿元——波动幅度远超正常半导体周期。核心原因是军工和信创业务受政策/招标节奏影响极大,“今年集中采购、明年暂停招标”是常态。

  2. 连续两年亏损:2024年和2025年净利润均为-1.65亿元,累计亏损3.3亿元。但亏损并非经营性崩塌——研发费用率从23%飙升至59%,本质上是用利润换未来 [20634]

  3. 研发投入极度激进:近三年累计研发投入突破10.40亿元,占累计营收比例高达54.72% [20367]。2026年Q1研发投入1.42亿元,同比大增102.67% [20367]。对一个年营收仅7亿元的公司而言,这种研发强度近乎“All-in”。

  4. 定增资金充裕:2024年10月完成38.33亿元定向增发,20家机构和个人投资者获配,葛卫东以6亿元参与 [20683]。这为未来2-3年的研发提供了充足弹药。

4.7.1.23. 估值与市值

截至2026年6月,景嘉微市值约300-400亿元区间(具体以实时行情为准)。券商给予的估值区间:目标价约79-106元,对应2026年PS约35-45倍(华创证券、浙商证券等)[20625]


4.7.1.24. 核心竞争力

维度评价
自主知识产权★★★★★ —— 所有GPU芯片为完全正向设计,不依赖任何第三方IP,掌握从指令集到物理实现的全栈技术
军工壁垒★★★★★ —— 军用飞机图显模块85%+市占率,军品资质、定型周期、客户黏性构成极高壁垒
全栈国产化能力★★★★☆ —— 从芯片到模块到整机到驱动,适配8种以上国产CPU和OS,是国内最完整的GPU国产化平台
先发积累★★★★☆ —— 19年GPU研发经验,4代芯片量产经验,是国内唯一经历过完整GPU产品生命周期的团队
资金储备★★★★☆ —— 38亿定增到账,短期内无融资压力

4.7.1.25. 主要短板

维度评价
AI算力严重不足最核心短板。JM11 FP32仅6 TFLOPS,DDR4带宽~119 GB/s,无FP8原生支持,在大模型训练/推理场景中几乎不可用
制程落后JM11制程未公开,但推测在14nm-7nm之间,与NVIDIA 4nm存在2-3代差距
软件生态薄弱无自研AI编译器栈,无CUDA兼容层,AI框架支持有限,仅靠OpenCL难以在AI算力市场立足
产品迭代速度慢“3年一代”的节奏在AI时代过于缓慢,2025年推出的JM11性能仅相当于NVIDIA 2018-2020年水平
营收体量过小7亿元年营收难以支撑GPU+AI芯片+雷达+边端AI四条战线的研发投入
团队基因偏军工创始团队来自国防科大微波/毫米波领域,缺乏GPU架构和AI软件栈的顶尖人才

4.7.1.26. 供应链风险

4.7.1.27. 实体清单影响

景嘉微于 2021年12月被美国商务部列入实体清单,是国产GPU公司中最早被制裁的之一 [20483]。公司官方回应“总体影响可控,不会对公司经营产生实质性影响” [20485]

但实际影响需要客观评估:

  • 代工受限:被列入实体清单后,台积电等使用美国技术的代工厂无法为其代工。JM7200采用28nm(可在国内代工),JM9推测为14nm(可在中芯国际代工),但更先进的7nm及以下制程存在风险
  • EDA工具受限:使用美国原产的EDA工具受到限制,需转向国产EDA或自研替代
  • IP和标准受限:PCIe、HDMI、DisplayPort等接口标准涉及美国技术,需寻找替代方案

4.7.1.28. 制程天花板

景嘉微当前最高制程推测为14nm/7nm(JM11未公开),而NVIDIA最新产品已采用4nm(台积电N4)。考虑到国内先进制程的产能限制,景嘉微未来3-5年的制程天花板可能在7nm左右。这意味着单芯片晶体管数量将受到硬约束,性能天花板清晰可见。

4.7.1.29. 显存供应风险

JM11采用DDR4/LPDDR4显存,规避了HBM和GDDR6的供应限制——这是一种“务实”的选择,但也从根本上限制了AI计算性能。如果未来需要升级到HBM或GDDR6X,将面临新的供应链风险。


4.7.1.30. 与 NVIDIA / AMD / Intel 的对应关系

维度NVIDIA对应AMD对应景嘉微实际水平
图形渲染RTX 2060/3060RX 6600JM11纸面接近RTX 2060,实际驱动适配后可能打折扣
AI训练V100(2017)差距巨大,景宏系列性能未公开,JM11不适合训练
AI推理T4(2018)JM11可做轻量推理,但带宽和算力严重不足
制程12nm FFN(2017)约2-3代差距
软件生态CUDA 8.0时代(2016)无自研AI软件栈,生态差距约10年
军用GPUNVIDIA/AMD不涉足中国军用市场,景嘉微在此领域无对标

一个残酷但诚实的判断:如果用汽车行业类比,NVIDIA H100/B200相当于特斯拉Model S Plaid,景嘉微JM11约等于一台经过军工加固的2018款燃油车——可靠、耐用、自主可控,但在加速、智能化和生态方面完全不在一个时代。


4.7.1.31. 未来3年判断

4.7.1.32. 情景分析

基准情景(概率60%)

  • 图形显控和雷达业务保持稳定,贡献5-8亿元/年营收
  • 信创GPU业务随政策周期波动,JM11在云桌面/云渲染场景逐步落地
  • 景宏系列和CH37形成初步收入,但体量不足以扭转整体营收格局
  • 2026-2028年营收9.6亿/13.4亿/19亿元(券商一致预期),2027-2028年有望扭亏
  • 市值维持在300-500亿元区间

乐观情景(概率20%)

  • 定增资金推动的下一代高性能GPU(JM12或JM13)在2027-2028年流片,性能大幅跃升
  • CH37边端AI芯片在具身智能/机器人场景爆发,形成第二增长曲线
  • 景宏系列获重大信创AI算力订单
  • 营收突破20亿元,净利润转正,市值突破800亿元

悲观情景(概率20%)

  • 军工订单持续波动,图形显控营收下滑
  • JM11在信创市场被摩尔线程、芯动科技等竞品替代
  • 景宏系列和CH37商业化不及预期,持续亏损
  • 38亿定增资金消耗殆尽,需再次融资
  • 市值回落至200亿元以下

4.7.1.33. 最可能的结果

景嘉微不太可能成为“中国版英伟达”,但极有可能成为 “中国版Radeon(军用/嵌入式版)”——在特定封闭市场(军工、航天、信创)中拥有极高壁垒和不可替代性,但在开放市场(AI算力、消费GPU)中难以与摩尔线程、华为昇腾等竞争。其真正的价值在于 “自主可控GPU全栈能力”的战略稀缺性,而非商业竞争力。


4.7.1.34. 核心评价总结

评分维度评分依据
芯片架构能力3/5全自研正向设计,但架构性能落后国际2-3代
芯片工程能力4/54代芯片量产经验,军工级可靠性验证
软件栈成熟度2/5图形API支持尚可,AI软件栈几乎空白
AI训练能力1/5JM11不适合训练,景宏系列性能未公开
AI推理能力2/5可做轻量推理,带宽和算力严重不足
图形能力3/5中端水平,满足信创和云桌面需求
HPC能力2/5仅OpenCL,无CUDA/Fortran生态
集群能力2/5景宏系列支持多卡互联,但规模未公开
生态能力3/5信创生态适配最完整,但AI生态薄弱
商业化能力3/5军工基本盘稳定,信创有基础,AI待验证
财务健康度3/538亿定增资金充裕,但营收体量小且持续亏损
供应链安全性4/5采用DDR4和国内可代工制程,受制裁影响相对可控
未来成长性3/5军工+信创+AI+边端四线布局,但每条线都面临强劲竞争

一句话总结:景嘉微是中国国产GPU的“开山鼻祖”,19年坚守令人尊敬,但技术路线偏保守、AI算力短板明显。在军工图显和信创桌面GPU领域,它是不可替代的“国家队”;在大模型训练和AI算力领域,它需要一场“自我革命”——否则将被锁定在“小而美”的利基市场中。投资景嘉微,本质上是在赌“中国需要在任何情况下都能自主可控的GPU”这一战略判断的正确性,而非在赌它能追平NVIDIA。

4.8. 天数智芯

同上

天数智芯是国产GPU创业浪潮中最具“务实落地”色彩的样本。它的故事没有壁仞那般“高调对标”的戏剧性,也没有寒武纪那般“纯自研DSA”的学术光环,而是以 “量产先行、生态兼容、场景覆盖” 为标签,悄然完成了从“0到1”的突破,并在2026年正式迈入资本市场。其定位清晰,打法稳健,是国产GPU中 商业化落地最扎实的厂商之一

4.8.1. 产品策略的“务实节奏”与“场景覆盖”逻辑

天数智芯的产品路线图展现出一种 节奏感极强的“务实主义”,核心逻辑是 先解决“有没有”,再解决“好不好”,最后追求“全不全”

第一步:抢跑量产,抢占“国产首发”心智

2021年,当一众国产GPU初创公司还在PPT上比拼参数时,天数智芯的 天垓100(Gen1) 已完成流片、点亮、量产,成为中国首款量产的通用GPU训练芯片 [20750]。它采用7nm制程,集成240亿晶体管,2.5D CoWoS封装,配备32GB HBM2显存,提供147 TFLOPS的FP16算力 [20762]。这些参数在2021年堪称“国产天花板”,但天数智芯并未过度宣传其“性能比肩A100”,而是将重点放在 “跑通200+应用场景、触达300+客户”的工程化验证上 [20788]。这种“先让客户用起来”的策略,为其积累了宝贵的早期生态和客户信任。

第二步:补齐推理,形成“训推一体”组合拳

随后,2022年底,天数智芯推出 智铠100,这是一款7nm推理GPGPU,基于第二代架构,提供384 TOPS(INT8)和96 TFLOPS(FP16)的峰值算力,功耗仅150W [20773]。智铠100的发布,使天数智芯成为 国内唯一同时拥有云端训练+推理完整解决方案的硬科技公司 [20775]。这不仅补齐了产品线,更关键的是,其“训推一体”方案允许客户在不增加额外购置成本的情况下完成增量训练,有效降低了客户的总拥有成本(TCO) [20763]

第三步:从云端到边缘,完成“全场景”布局

2026年1月,刚刚港股上市的天数智芯发布了 “彤央”系列边端算力产品,覆盖100T到300T的稠密算力 [20786]。其中,TY1000模组体积小巧,实测综合效率号称超越英伟达AGX Orin [20977];TY1200则以300 TOPS的性能剑指AIPC、具身智能等前沿场景 [20974]。至此,天数智芯构建了 “天垓(训练)+ 智铠(推理)+ 彤央(边缘)”的全场景算力产品矩阵,其战略意图非常清晰:从云端到边缘,从算力中心到终端设备,为客户提供“全家桶”式的一揽子算力解决方案 [20793]

4.8.2. 商业化与财务的“双面性”:高增长与高投入

天数智芯的商业化进程在国产GPU中属于第一梯队,但呈现出典型的“高增长、高投入”特征。

  • 营收高速增长,验证了产品市场接受度:2025年全年营收达到 10.34亿元,同比增长91.6%,其中约90%来自通用GPU产品销售 [20734]。据路透社报道,其主要客户字节跳动预计在2026年至少采购 5万颗芯片,主要用于豆包(Doubao)大模型的推理工作负载 [20733]。这笔订单一旦落地,将成为天数智芯营收规模跃升的关键催化剂,也标志着其首次进入头部互联网大厂的规模化供应名单。
  • 亏损持续收窄,但盈利拐点尚未到来:尽管营收高速增长,但公司尚未实现盈利。不过,其经调整净亏损已从峰值大幅收窄,2025年经调整亏损为4.38亿元,同比收窄32.1% [1263]。同时,毛利率提升至54.0%,显示出产品结构优化和规模效应带来的正向改善 [1263]。IPO后,公司资产负债率已从59.1%降至39.8%,财务结构趋于稳健 [20809]
  • 客户结构从“政企”向“互联网”突破:早期,天数智芯的客户以三大运营商、政企和智算中心为主 [21047]。与字节跳动的深度合作,是其客户结构从“信创市场”向“主流互联网商业市场”突破的关键一步。这既验证了其产品在苛刻商业环境中的竞争力,也为其打开了更广阔的市场空间。

4.8.3. 团队变阵:从“技术创始人”到“财务操盘手”的战略切换

天数智芯的团队演变,是理解其战略逻辑的关键。创始人李云鹏的Oracle软件背景,为公司注入了“软硬件协同”的基因 [20750]。然而,2021年李云鹏出局,由其接任者刁石京(前工信部官员、紫光集团联席总裁)和现任CEO盖鲁江(财务背景)主导,标志着公司战略从“技术驱动”向“资本和量产驱动”的明确切换 [20820]

这种切换的利弊非常鲜明:

  • :在盖鲁江任内,公司完成了港股上市,并拿下了字节跳动等标杆客户,资本运作和商业化能力显著增强 [20821]
  • :盖鲁江并无技术背景,公司的技术灵魂人物是CTO吕坚平和首席科学家郑金山 [20742]。吕坚平是全球唯一两次成功交付全新GPU的架构师,是公司最核心的技术资产 [20919]。如果吕坚平等技术核心流失,天数智芯的技术延续性将面临严峻挑战。

4.8.4. 未来展望:路线图与现实考验

天数智芯在上市后发布了雄心勃勃的 四代架构路线图天枢(2025年,超越Hopper)、天璇(2026年,对标Blackwell)、天玑(2026年,超越Blackwell)、天权(2027年,超越Rubin) [20789]。该路线图旨在用两年时间走完NVIDIA三代架构的演进路径,极具挑战性。

然而,现实考验同样严峻。其当前产品与NVIDIA H200/B200的TPP性能密度差距高达5-12倍 [20729]。此外,美国对台积电7nm及以下先进制程的代工禁令,对所有依赖先进制程的国产GPU厂商构成了共同威胁,天数智芯的供应链安全同样存在不确定性 [20881]

总结:天数智芯是国产GPU赛道上 最懂“工程落地”和“客户需求”的务实派。它以“量产快、迁移易、覆盖广”为核心卖点,稳扎稳打地完成了从0到1的突破,并成功卡位字节跳动等关键客户。其稳健的打法使其在早期淘汰赛中存活并壮大,但未来能否在规模化的商业市场和技术深水区持续突破,将取决于其 四代架构能否如期兑现 以及 核心团队的稳定性

4.9. 沐曦

同上

4.9.1. 沐曦(MetaX)深度分析

4.9.2. 公司概况

沐曦集成电路(上海)股份有限公司(MetaX Integrated Circuits (Shanghai) Co., Ltd.,688802.SH)成立于2020年9月,总部位于上海,2025年12月17日登陆科创板,是继摩尔线程后的”国产GPU第二股”[21088]。公司以”全栈自研GPU芯片及计算平台”为定位,覆盖AI训练推理、图形渲染和科学计算三大场景,是国产GPU”四小龙”中商业化速度最快的厂商之一[21231]

公司名称沐曦集成电路(上海)股份有限公司
英文名MetaX Integrated Circuits (Shanghai) Co., Ltd.
成立时间2020年9月
上市时间2025年12月17日(科创板,688802.SH)
总部上海
研发中心北京、南京、成都、杭州、深圳、武汉、长沙等
创始人/实际控制人陈维良(合计控制22.94%表决权)[21073]
发行价104.66元/股
首日收盘价829.90元(+692.95%)[21295]
当前市值~2,780-2,900亿元(2026年6月)[21285]
2025年营收16.44亿元,同比+121.26% [21335]
2025年净利润-7.89亿元(亏损收窄43.97%)[21335]
2026年Q1营收5.62亿元,同比+75.6% [21339]
研发投入2025年全年10.27亿元,占营收62.49% [21336]
员工研发人员675人,占比73% [21336]
IPO募资约42亿元 [21088]

数据来源:[21088]

架构师评注:沐曦是国产GPU赛道中最具”AMD基因”的公司。创始人陈维良、CTO彭莉、软件CTO杨建组成的”AMD铁三角”在业界堪称豪华——三人在AMD合计拥有超过50年的GPU全流程研发经验,曾在AMD主导15款高性能GPU的流片与量产[21054]。这种”整建制”团队背景意味着沐曦不是从零摸索GPU架构,而是将AMD已验证的工程方法论直接平移到了中国。某种意义上,沐曦的路线是”把AMD的GPU设计know-how在中国重新做一遍”——但恰逢实体清单后AMD无法继续技术输出,沐曦必须自力更生。

4.9.3. 创始团队和核心成员背景

沐曦的创始团队被称为”AMD铁三角”,是国产GPU赛道中最具辨识度的技术团队之一[21071]

陈维良(创始人、董事长兼CEO):清华大学微电子学研究所硕士,在GPU领域拥有近20年团队管理、技术研发和量产经验。曾长期就职AMD,担任AMD全球GPU SoC设计总负责人、通用GPU MI产品线设计总负责人,带领团队主导并完成15款高性能GPU产品的流片和量产,包括AMD MI100等旗舰产品[21054]。陈维良是沐曦的实际控制人,通过直接持股及控制上海骄迈、上海曦骥,合计控制公司22.94%的股份表决权[21073]

彭莉(联合创始人、CTO兼首席硬件架构师):AMD全球首位华人女科学家(Fellow),曾任AMD首席架构师,拥有超过20年高性能GPU芯片设计经验。在沐曦负责从芯片定义到流片的全流程设计,包括架构定义、逻辑和物理设计、功能验证和可测性方案[21063]。彭莉是沐曦硬件技术路线的核心灵魂人物。

杨建(联合创始人、软件首席架构师):AMD大中华地区第一位科学家(Fellow),历任AMD、海思等公司首席架构师,负责沐曦软件栈MXMACA的架构设计与生态建设[21063]

核心团队特点:沐曦核心成员平均拥有近20年高性能GPU产品端到端研发经验,曾主导过十多款世界主流高性能GPU产品研发及量产,是国内唯一有过通用服务器GPU芯片研发及量产经验的完整团队[21052]。团队具备从40nm到5nm先进制程的完整设计经验,软硬件能力兼具[21056]

架构师评注:沐曦团队最核心的竞争力在于”整建制”——不是零散挖人拼凑,而是将AMD内部一个完整GPU研发团队的核心骨干整体平移。这种团队配置在国产GPU创业公司中独一无二。陈维良管产品定义和商业落地,彭莉管硬件架构,杨建管软件生态——三条线各自由世界级专家带队,且三人此前在AMD已有多年的协作默契。这种”即插即用”的团队基因,解释了为什么沐曦仅用3年就完成了两款芯片一次流片成功量产[21053]

4.9.4. 发展历程

时间关键事件
2020年9月沐曦集成电路在上海成立,陈维良创立[21055]
2020年10月在南京浦口成立第一家全资子公司[21058]
2021年1月完成近亿元天使轮融资[21052]
2021年3月完成数亿元Pre-A轮融资(红杉中国领投,真格基金跟投)[21097]
2021年8月完成10亿元A轮融资[21063]
2022年1月首款产品曦思N100交付流片[21069]
2022年完成Pre-B轮融资(和暄资本等入局)[21079]
2023年4月曦思N100正式量产[21303]
2023年6月曦云C500(MXC500)成功点亮,完成基础功能测试[21110]
2023年B轮/B+轮融资(中原航港基金、广发信德、浦东资本等)[21081]
2024年2月曦云C500正式量产[21322]
2024年8月完成最后一轮融资,投后估值210.71亿元[21073]
2024年12月完成股改[21131]
2025年6月完成上市辅导,向上交所科创板提交IPO申请[21062]
2025年7月曦云C600回片,产品良率及测试指标良好[21250]
2025年8月完成首轮问询回复[21077]
2025年10月IPO过会,拟募资39.04亿元[21100]
2025年12月17日科创板上市,首日暴涨692.95%,市值达3,320亿元[21295]
2026年3月发布上市后首份年报:2025年营收16.44亿元[21342]
2026年5月MXC600通过国家《安全可靠测评》[21243]
2026年Q2曦云C600系列预计正式量产;C700预计进入流片测试阶段[21242]

数据来源:综合整理

架构师评注:沐曦的发展节奏堪称”教科书级加速”——从成立到IPO仅5年,期间完成两款芯片量产、累计GPU销量超2.5万颗[21324]。2023-2024年的关键转折在于:曦思N100(推理芯片)在2023年量产,但随即遭遇生成式AI爆发导致传统推理需求下降;幸运的是,沐曦几乎同步推出了训推一体芯片曦云C500,精准踩中了2024年大模型算力需求爆发的窗口。这种”推理→训推一体”的产品切换能力,体现了团队对市场趋势的敏锐判断。

4.9.5. 最新产品系列

沐曦构建了”曦思N(推理)+ 曦云C(训推一体)+ 曦彩G(图形渲染)+ 曦索X(服务器)“四大产品序列,覆盖从云端推理到大规模训练、从科学计算到图形渲染的全场景[21061]

4.9.5.1. 曦思N系列——智算推理GPU

参数曦思N100曦思N260曦思N300(在研)
定位传统AI推理+视频处理生成式AI推理下一代生成式AI推理
INT8算力160 TOPS未公开未公开
FP16算力80 TFLOPS未公开未公开
显存HBM2E大容量显存预计HBM3
视频处理128路编/96路解码,支持8K新一代编解码未公开
量产时间2023年4月已量产在研
对标NVIDIA T4NVIDIA L20(推理性能110%-130%)[21257]未公开

数据来源:[21115]

4.9.5.2. 曦云C系列——训推一体GPU(主力产品线)

参数曦云C500曦云C550曦云C588曦云C600曦云C700(在研)
制程7nm7nm+7nm+国产先进工艺国产先进工艺
架构自研XCORE 1.0自研GPU IP自研GPU IP自研GPU架构新一代自研架构
FP3215 TFLOPS未公开未公开未公开未公开
FP16/BF16A100区间A100区间大幅缩小与H100差距未公开目标对标H100
FP8不支持不支持未公开1,000 TFLOPS支持
INT8未公开未公开未公开未公开支持FP4
显存64GB HBM2e未公开未公开144GB HBM3e未公开
显存带宽1.8 TB/s未公开未公开1,600-1,800 GB/s未公开
互联MetaXLink (2-64卡)MetaXLinkMetaXLinkMetaXLink超节点未公开
TDP350W未公开未公开风冷/液冷未公开
形态PCIe板卡PCIe板卡OAM模组OAM模组预计OAM
量产时间2024年2月已量产已量产2025年底风险量产,2026H1正式量产2026H2流片
性能对标A100的75-92%A100接近H100A100-H100之间目标超越H100
供应链台积电台积电台积电全国产供应链全国产供应链

数据来源:[21105]

架构师评注:C500的FP32算力约15 TFLOPS,是A100(19.5 TFLOPS)的约77%,但OAM版本可达92%[21198]。C500的显存带宽1.8 TB/s与A100的1.935 TB/s差距很小,说明沐曦在HBM PHY和内存控制器设计上功力扎实[21121]。C600是真正的分水岭产品——首次实现全国产供应链闭环,这在国产GPU中具有里程碑意义[21243]。C600搭载144GB HBM3e(超过H100的80GB),FP8算力达1,000 TFLOPS,大显存对大模型推理和训练非常友好[21200]。C700定位”超越H100”,预计2026年下半年流片,若成功将进一步缩小与国际旗舰的差距[21242]

4.9.5.3. 曦彩G系列——图形渲染GPU

曦彩G系列是沐曦面向图形渲染加速的解决方案,采用自主知识产权架构,内置图形处理器,主要应用于云端及边缘端图形处理,可覆盖元宇宙、云桌面、云游戏、云手机、数字孪生、XR等场景[21105]。曦彩G100 GPU IP的设计和验证工作已完成,但尚未见独立量产时间表[21296]。面向消费级市场的游戏显卡仍处于规划阶段。

4.9.5.4. 曦索X系列——服务器

曦索X206、X302是沐曦的GPU服务器产品线,搭载曦云C系列GPU,面向智算中心和通用计算场景[21245]

4.9.6. 产品技术特点

(1)自研指令集+兼容CUDA的”双轨”架构

沐曦产品采用完全自主研发的GPU IP、指令集和架构(XCORE 1.0),而非基于第三方IP授权。其核心技术特点是”自主指令集+兼容CUDA生态”的双轨策略——底层指令集完全自主,但通过MXMACA软件栈在API层面实现对CUDA的高度兼容[21144]

(2)可重构GPU架构

沐曦GPU采用原创专利保护的可重构GPU架构,通过数据压缩、数据广播以及共享硬件加速单元等技术,突破传统GPU芯片能效瓶颈,优化核心算力能耗比[21113]

(3)MetaXLink高速卡间互联

自研MetaXLink互连技术支持2卡至64卡多种互连拓扑,是国内稀缺的高带宽卡间互连能力,可实现单机8卡GPU全互联[21107]。在智算集群的线性度、稳定性、利用率等方面表现较强[21151]

(4)全精度混合计算

从C500的FP32/FP16/BF16/INT8到C600的FP8,再到C700规划的FP4,沐曦逐步扩展对低精度计算的支持,紧跟大模型训练和推理的精度演进趋势[21253]

(5)虚拟化与多租户

支持最小1%颗粒度的软切分虚拟化技术,便于云服务商的多租户GPU资源调度[21201]

4.9.7. 软件生态

MXMACA(MetaX Advanced Computing Architecture)是沐曦自研的统一异构计算平台,核心价值在于”低迁移成本”。据披露,一个中等复杂度CUDA应用的迁移成本仅需1人天[21149]

生态兼容性关键指标(截至2025年7月)[21153]

  • 支持6,000+ CUDA开源应用
  • 2,200+高性能算子
  • 原生适配PyTorch、TensorFlow等主流AI框架
  • 原生适配DeepSeek、Qwen3等300+主流大模型
  • CUDA项目迁移成功率超92%[21162]
  • 深度支持PyTorch 2.0 torch.compile动态图编译[21158]
  • 与华为欧拉、麒麟OS、openKylin等国产操作系统完成适配[21157]
  • 与龙蜥社区(Anolis OS)完成兼容性认证[21122]
  • 与PaddlePaddle完成适配[21109]
  • 与InfiniCCL开源框架完成首发适配[21241]
  • GROMACS分子动力学模拟GPU加速实现2.5倍性能提升[21297]

MXMACA采取”自主可控+开放兼容”双轨并行战略,提供从应用开发、功能调试到性能调优的全栈式工具链[21145]。在推理场景,MXMACA针对主流大模型深度优化,降低延迟并提升吞吐;在训练场景,分布式训练展现出优异线性度,可长周期无故障稳定运行[21158]

架构师评注:沐曦的软件策略是”实用主义优先”——不追求重新定义编程模型,而是在CUDA生态上做最彻底的兼容。MXMACA本质上是”自研ISA + CUDA兼容API”的架构,编译器前端接受CUDA代码,后端映射到自研指令集。这种策略的短期优势是客户迁移成本极低,但长期风险在于:随着CUDA持续演进(如PTX指令集更新、新特性引入),MXMACA需要持续追兼容,追得越紧越累。不过,在当前国产替代窗口期,这种”先兼容、后自主”的路线确实是最务实的。

4.9.8. 商业化与客户

4.9.8.1. 收入结构

沐曦的收入高度集中于曦云C500系列。2024年,曦云C500系列收入7.22亿元,占主营收入97.28%;2025年Q1,该比例进一步升至97.87%[21132]。2025年全年,GPU产品及配件收入16.31亿元,占比99.19%[21309]

4.9.8.2. 主要客户

沐曦的客户集中度较高,前五大客户贡献超七成收入[21169]

客户合作内容订单规模
超讯通信行业总代理商,采购”元醒曦云C500-P”训推一体服务器14.88亿元订单,2024-2025年累计进货8,841颗GPU[21170]
新华三GPU板卡采购大额订单(具体金额未公开)[21164]
联想DeepSeek一体机(搭载曦思N260/曦云C500)首月发货超千台[21265]
汇天网络科技算力基础设施单笔超7,500万元[21169]
国家AI公共算力平台智算集群部署9大国家级智算集群[21167]
运营商智算平台运营商智算中心已规模化应用[21324]
中科院千卡集群大模型训练已完成多个大模型全参数训练[21240]

数据来源:综合整理

超讯通信是沐曦最核心的合作伙伴。双方不仅签署了行业总代理协议,还通过共同参股中能建智慧科技(超讯持股10%、沐曦持股8%)和四川讯曦智能科技(超讯持股56%、沐曦持股18%)实现了深度绑定[21168]。这种”总代+合资”的模式在国产GPU销售中较为独特。

4.9.8.3. 累计部署规模

截至2025年3月底,GPU产品累计销量超2.5万颗[21324]。截至2024年底,已在中国部署9个算力集群,商业化运行GPU数量超10,000颗[21087]。2025年全年GPU产品及配件收入16.31亿元,按照ASP约6-8万元/颗估算,2025年出货量约2-3万颗级别。

4.9.9. 财务、营收、融资与估值

4.9.9.1. 营收与利润

指标2022年2023年2024年2025年2026年Q1
营业收入42.64万元5,302万元7.43亿元16.44亿元5.62亿元
同比增速-~12,335%~1,300%+121.26%+75.6%
归母净利润-7.8亿元-8.7亿元-14.09亿元-7.89亿元亏损收窄
综合毛利率24.10%62.88%53.43%56.51%~55%
研发费用--~9.0亿元10.27亿元-
研发费用率--~121%62.49%-

数据来源:[21127]

4.9.9.2. 融资历程

轮次时间金额主要投资方估值
天使轮2021年1月近亿元和利资本、天津泰达-
Pre-A轮2021年3月数亿元红杉中国(领投)、真格基金11.5亿元
A轮2021年8月10亿元未完全公开-
Pre-B轮2022年约10亿元和暄资本、混沌投资、央视融媒体产业基金等80+亿元
B轮/B+轮2023-2024年数十亿元中原航港基金、广发信德、浦东资本等-
最后一轮2024年8月未公开浦东资本、上海科创基金、湖南国创产业投资等210.71亿元
IPO2025年12月42亿元公开市场发行市值418.74亿元

数据来源:[21052]

4.9.9.3. 估值与市场表现

  • IPO发行价:104.66元/股,对应发行后市值418.74亿元[21288]
  • 上市首日开盘价:700元/股(+568.8%),盘中最高895元(+755.15%),收盘829.90元,市值3,320亿元[21295]
  • 当前市值(2026年6月):约2,780-2,900亿元[21285]
  • 机构预测2026年营收35-45亿元,PS约60-80倍[21339]

累计亏损至IPO前约33亿元[21064]。陈维良表示”最早有望在2026年实现盈亏平衡”[21337]

架构师评注:沐曦的估值(3,000亿元级别)与其营收(16.44亿元)之间存在巨大鸿沟,PS约180倍。这个估值隐含的假设是:沐曦将在2026-2028年实现50-100亿元级别营收,并在国产GPU替代浪潮中占据20-30%的市场份额。目前市场定价更多反映的是”国产替代叙事”而非当期基本面。C600的成功量产和C700的流片进展,将是验证这一估值的关键。

4.9.10. 核心竞争力

(1)顶级整建制团队:AMD”铁三角”——陈维良(产品/商业)、彭莉(硬件架构)、杨建(软件生态),三人合计拥有50+年GPU全流程经验,前AMD内部协作多年的默契非拼凑团队可比。这种”整建制”基因使得沐曦在芯片架构设计、流片工程管理、量产良率控制等方面具有明显优势——两款芯片均一次流片成功[21053]

(2)CUDA兼容性最强:MXMACA软件栈在API层面高度兼容CUDA,CUDA项目迁移成功率超92%,中等复杂度应用迁移仅需1人天[21149]。这在国产GPU中是最激进的兼容策略,也是沐曦最大的差异化卖点。

(3)商业化落地速度最快:从2022年零收入到2025年16.44亿元,三年复合增长率超4,000%[21134]。在国产GPU四小龙中,沐曦的营收规模最大、增速最快、毛利率最高(56.51%)[21220]

(4)全栈产品布局:推理(N系列)+ 训推(C系列)+ 图形(G系列)+ 服务器(X系列),四大产品线覆盖从云端到边缘的全场景,形成了”量产一代(C500/C550)、在研一代(C600)、规划一代(C700)“的稳定迭代节奏[21296]

(5)率先实现国产供应链闭环:C600系列首次实现从设计、制造到封装测试的全流程国产供应链[21243]。这是国产GPU在供应链自主可控上的里程碑。

4.9.11. 主要短板

(1)收入高度依赖单一产品:曦云C500/C550系列贡献超97%营收,若C600量产不及预期,存在较大业绩风险[21190]

(2)客户集中度高:前五大客户贡献超七成收入,超讯通信单一客户占比极大[21169]。客户集中度高于摩尔线程和天数智芯[21226]

(3)持续亏损,现金流压力大:累计亏损超33亿元,2025年仍亏损7.89亿元,研发费用率高达62.49%[21335]。虽然亏损收窄,但盈亏平衡点尚未明确。

(4)图形渲染能力薄弱:曦彩G系列仍处于IP验证阶段,距量产和商业化还有相当距离。与摩尔线程的全功能GPU(游戏显卡+AI计算)相比,沐曦的图形能力明显滞后。

(5)互联网大厂客户突破不足:虽然已与联想合作一体机,但阿里、字节跳动、腾讯等头部互联网客户的大规模采购尚未落地。沐曦在问询函中坦承”互联网企业首选国际产品”[21206]

(6)HBM供应受限:C500依赖HBM2e,C600/C700需要HBM3/HBM3e,国产HBM供应链仍处于早期阶段[21183]

4.9.12. 供应链风险

沐曦的供应链风险分为两个阶段:

C500系列阶段(现有主力):C500/C550/C588采用7nm工艺,依赖台积电代工和海外HBM供应。公司在招股书中明确披露”目前在先进制程晶圆代工和HBM供应等方面受到不利限制”[21183]。2019年实体清单后,台积电对中国大陆7nm及以下先进制程的供应持续收紧,这是C500系列最大的地缘政治风险。

C600系列及以后(国产供应链):C600系列已实现全国产供应链——从芯片设计到制造、封装,再到配套软件栈,全面实现国产化[21243]。C600已通过国家《安全可靠测评》(2026年第2号),可满足政企、金融、电信、能源、交通等关键行业安全标准[21243]。C700系列同样基于国产供应链,预计2026年下半年流片[21242]

架构师评注:C600的国产供应链闭环是沐曦最值得关注的技术突破。但”国产先进工艺”的具体节点(中芯国际N+2等效7nm?还是更先进的国产工艺?)以及国产HBM3e的性能和良率,仍然是关键变量。C600的144GB HBM3e如果来自国产供应链,意味着国产HBM已取得实质性突破——这需要进一步核验。

4.9.13. 与NVIDIA / AMD / Intel的对应关系

维度沐曦对应国际厂商
团队基因AMD GPU团队背景AMD(最直接的对标)
技术路线自研GPGPU架构 + CUDA兼容AMD CDNA + ROCm生态
产品定位数据中心训推一体NVIDIA A100/H100/H20
软件生态MXMACA(兼容CUDA)NVIDIA CUDA + AMD ROCm
商业模式GPU芯片 + 板卡 + 服务器NVIDIA(数据中心GPU)
图形能力曦彩G系列(规划中)AMD Radeon / NVIDIA GeForce

最直接对标:沐曦≈“中国版AMD数据中心GPU”。技术路线更接近AMD CDNA系列(GPGPU架构、ROCm兼容),但商业策略上通过MXMACA兼容CUDA生态,实际上是”AMD硬件基因 + NVIDIA软件生态”的混合路线。

产品对标:C500≈A100(75-92%性能),C600≈A100-H100之间,C700目标≈H100。

4.9.14. 未来3年判断

2026年:C600正式量产是核心看点。若C600成功量产并在互联网大厂获得规模化部署,全年营收有望达到35-45亿元(机构预测),实现盈亏平衡[21337]。C700流片进展决定2027-2028年的产品竞争力。

2027年:C700若成功量产并接近H100性能,将大幅缩小与国际旗舰的差距。图形GPU(曦彩G系列)能否进入商业化阶段,决定沐曦能否从”AI加速器公司”进化为”全功能GPU公司”。

2028年:国产GPU行业大概率进入整合期。沐曦能否凭借C700+C600组合在互联网大厂和智算中心市场站稳脚跟,将决定其能否成为真正的”中国AMD”。

核心风险:C600量产进度不及预期;互联网大厂客户持续观望;HBM国产供应链产能/良率受限;摩尔线程、壁仞科技等竞争对手的软件生态加速成熟。

乐观情景:C600成功量产+互联网大厂批量采购+2026年盈亏平衡+2027年C700流片成功→市值有望支撑3,000-5,000亿元区间。

悲观情景:C600量产延迟/良率不及预期+客户集中于信创市场而非互联网大厂+持续亏损→市值可能回落至1,000-1,500亿元。


架构师总评:沐曦是国产GPU赛道中最具”工程务实主义”气质的公司。它不追求”重新定义GPU”,也不试图在架构上颠覆NVIDIA,而是老老实实地把AMD验证过的GPU工程方法论在中国复现,并通过极致的CUDA兼容降低客户迁移成本。这种”现实主义”路线在国产替代窗口期是最有效的策略。但沐曦的真正考验不在于”能不能做出来”——已经做出来了——而在于”能不能从信创市场走向互联网大厂”,以及”能不能从单产品依赖走向多产品矩阵”。C600的国产供应链闭环和C700的性能突破,将是未来3年最核心的观察指标。

4.10. 燧原科技

同上

定位:中国云端AI芯片“四小龙”之一,选择了一条与摩尔线程、壁仞截然不同的DSA(领域专用架构)路线,不做“国产英伟达”——而是做“中国AI算力的基础设施公司”。
核心判断:燧原科技是国产AI芯片中最“特立独行”的一家——当同行争相兼容CUDA、走GPGPU路线时,燧原从第一天起就选择了自研指令集+自研架构+自研软件栈的“全栈自研”之路。这种“拒绝模仿”的底层自信来源于赵立东-张亚林这对“AMD双子星”的技术信仰,也来源于腾讯连续6轮投资的战略背书。然而,燧原的“独立”在商业上付出了巨大代价——客户高度依赖腾讯(2025年83.79%营收来自腾讯),毛利率被压至30%左右,且开发者迁移成本极高。燧原的真正价值不在于“追平NVIDIA”,而在于它可能是中国唯一一个真正跑通了“自研DSA架构→云端AI芯片大规模商用→万卡集群→科创板IPO”全链路的独立AI芯片公司。2026年6月科创板过会,标志着“国产GPU四小龙”全部进入资本市场,但燧原的“腾讯依赖症”能否在上市后缓解,是投资者最关心的问题。


4.10.1. 公司概况

上海燧原科技股份有限公司(Enflame Technology Co., Ltd.)成立于2018年3月,总部位于上海,在北京设有全资子公司 [21380]。公司专注于 云端AI芯片 领域,定位为”通用人工智能基础设施领军企业”,采用Fabless模式,提供从芯片、加速卡、智算集群到软件平台的全栈解决方案 [21384]

燧原科技是”国产GPU四小龙”(摩尔线程、壁仞科技、燧原科技、沐曦)中 唯一一家明确不走GPGPU路线的公司——公司多次公开强调”准确来讲燧原是一家AI芯片公司,聚焦云端AI芯片的设计研发,采用的非GPGPU架构” [21545]。这一技术路线选择使其在国内AI芯片赛道中形成了独特的差异化定位,但也带来了生态兼容性和客户拓展方面的特殊挑战。

公司名称”燧原”取自”点燃星燧不知火,汇聚燎原之势”——这个充满野心的名字,反映了创始团队对中国AI算力自主可控的愿景 [21564]


4.10.1.1. 创始团队和核心成员背景

燧原科技的创始团队被称为”AMD双子星”——赵立东和张亚林这对在AMD共事多年的老搭档,带着深厚的”硅谷基因”和技术信仰创业 [21552]

角色姓名背景
创始人/董事长/CEO赵立东(ZHAO LIDONG)清华大学电子工程学士,美国犹他州立大学电子与计算机硕士。在硅谷工作超过20年。2007-2014年服务于AMD,历任计算事业部高级总监(负责CPU/APU产品规划)、产品工程部高级总监(负责CPU/GPU/APU及核心IP研发,团队规模超千人,参与成立中国研发中心)。此前还曾服务于Juniper Networks(网络安全芯片)和S3 Inc.(GPU图形处理器芯片研发,S3是英伟达早期的竞争对手)。2014年底加入紫光集团任副总裁,主管半导体投资,兼任锐迪科微电子总裁。2018年3月辞职创立燧原科技 [21378]
创始人/COO张亚林2008年加入AMD,历任资深芯片经理、技术总监。作为全球芯片研发主要负责人之一,在AMD上海研发中心成功领导开发并量产了多颗世界级芯片,包括AMD旗舰APU/GPU产品,拥有丰富的工程和产品化实战经验。加入AMD时赵立东是其直属老板——赵立东负责团队构建和项目争取,张亚林负责执行芯片项目 [21550]。2023年获上海市科学技术奖青年科技杰出贡献奖 [21561]

赵立东和张亚林的关系,堪称国产AI芯片创业圈最经典的”师徒档”——赵立东是”帅才”(战略+融资+业务),张亚林是”将才”(产品+研发+运营)。两人在AMD共事期间建立了深厚的信任,而赵立东在紫光集团主管半导体投资的经历,又为他积累了丰富的产业资本人脉。据LinkedIn数据,燧原至少有二十多名主管曾在AMD工作过 [21381],整个公司带有浓厚的”AMD基因”。

团队评价:赵立东的履历有三个独特之处——①在S3 Inc.做过GPU图形芯片(与早期英伟达竞争),②在AMD管过千人规模的CPU/GPU/APU研发团队,③在紫光集团做过半导体投资。这种”研发+管理+投资”的复合背景,在国产AI芯片创始人中极为罕见。张亚林则代表了”工程落地能力”——从AMD上海研发中心到燧原,他主导了每一代芯片的量产。两人的组合,在技术信仰和商业落地之间找到了一个微妙的平衡点。

创始人合计直接+间接控制公司28.1357%的表决权,为共同实际控制人 [21559]。腾讯科技持有19.9493%,为第一大外部股东,腾讯系(含一致行动人苏州湃益)合计持股20.258% [21465]


4.10.1.2. 发展历程

时间里程碑
2018年3月公司成立,赵立东与张亚林联合创立,总部位于上海 [21380]
2019年12月首款AI训练芯片 邃思1.0(DTU)发布,从项目启动到发布仅用18个月,一次性流片成功。基于邃思1.0的云燧T10训练加速卡FP32算力20 TFLOPS,云燧i10推理卡同步推出 [21363]
2020年5月B轮融资7亿元,武岳峰资本领投,腾讯跟投(此时腾讯已投3轮)[21433]
2021年7月第二代训练产品 邃思2.0 发布,中国最大AI计算芯片(57.5mm×57.5mm,面积3306mm²),采用格芯12nm+日月光2.5D封装,FP32 40 TFLOPS,TF32 160 TFLOPS,INT8 320 TOPS,国内率先支持TF32精度 [21374]
2021年12月第二代推理产品 邃思2.5 发布,云燧i20推理卡,INT8 256 TOPS,12nm媲美7nm GPU [21355]
2022年9月发布云燧智算机(CloudBlazer Pod),典型配置每单元8 PFLOPS TF32算力,支持数千卡规模集群,突破E级算力 [21362]
2023年推出文生图MaaS平台”燧原曜图”,以自研邃思芯片为算力支撑 [21419]
2024年第三代芯片 邃思320 发布,对应推理加速卡 燧原S60。同年12月,甘肃庆阳建成国内首个国产万卡推理集群(10016张S60卡)[21588]
2024年8月启动IPO辅导,辅导机构中金公司 [21401]
2024年12月E轮融资完成,投后估值约202亿元 [21399]
2025年7月第四代训推一体芯片 邃思400 发布,对应 燧原L600 训推一体加速模组,144GB存储容量,3.6TB/s存储带宽,800GB/s互联带宽,国内首创原生FP8支持,性能对标NVIDIA H20 [21473]
2025年10月IPO辅导机构由中金公司变更为中信证券 [21381]
2025年全年营收9.90亿元,AI加速卡及模组销售量6.6万张,中国AI加速卡市场份额约1.7% [21456]
2026年1月科创板IPO获受理,拟募资60亿元,为2026年A股首单IPO [21401]
2026年6月科创板IPO过会,上市委审议通过,“国产GPU四小龙”全部会师资本市场 [21432]

从研发节奏看,燧原的迭代速度可圈可点:第一代芯片18个月完成(业内罕见),此后保持约2年一代架构的节奏,四代架构五代芯片,覆盖训练和推理两条产品线。但值得注意的是,前三代产品均采用格芯12nm工艺——这既是供应链安全的策略选择,也反映了先进制程获取受限的现实。


4.10.1.3. 最新产品系列

燧原科技构建了”芯片+板卡+集群+软件”的四层产品体系:

产品层级系列代表产品说明
芯片邃思(DTU)邃思1.0 → 邃思2.0/2.5 → 邃思320 → 邃思400四代架构五款芯片
训练加速卡云燧T系列T10/T11(1代)→ T20/T21(2代)面向云端AI训练
推理加速卡云燧S/i系列i10(1代)→ i20(2代)→ S60(3代)面向云端AI推理
训推一体模组燧原L系列L600(4代)训推一体,对标H20
智算集群CloudBlazerCloudBlazer Matrix 2.0(8192卡,1.3E算力)最高支持E级算力集群
软件平台驭算TopsRider全栈AI计算及编程平台自研指令集+编译器+算子库

核心产品关键参数

产品定位制程关键算力显存互联状态
云燧T10训练12nm GFFP32 20 TFLOPSSmart Link量产(2019)
云燧T20训练12nm GFFP32 40 TFLOPS, TF32 160 TFLOPS6口互联量产(2021)
云燧i20推理12nm GFINT8 256 TOPS, TF32 128 TFLOPS16GB HBM2e, 819GB/s量产(2021)
燧原S60推理量产(2024),累计出货10万卡
燧原L600训推一体原生FP8144GB, 3.6TB/s800GB/s发布(2025.7)

注:邃思320(S60)和邃思400(L600)的具体制程工艺未公开披露,公开资料有限,需进一步核验。但考虑到2024年11月台积电对大陆7nm以下AI芯片的供应限制,以及燧原此前三代产品均使用格芯12nm的历史,邃思320/400的制程选择存在较大不确定性 [21608]


4.10.1.4. 产品技术特点

燧原科技的技术路线可以用一句话概括:“不跟随英伟达GPGPU,自研DSA架构+全栈软件”

4.10.1.5. GCU-CARA架构:自研DSA路线

燧原的核心技术底座是其自研的 GCU-CARA(通用计算单元和全域计算架构,General Compute Unit - Comprehensive Architecture),这是一个完全自主知识产权的领域专用架构(DSA)[21536]

该架构的核心理念是:不为通用计算妥协,只做AI加速的最优解。具体包括:

  • GCU-CARE加速计算单元(对标NVIDIA Tensor Core):将计算、互联与存储的优化特性以硬件方式固化,已迭代四代微结构,第四代支持原生FP8等多种精度混合计算 [21534]
  • GCU-LARE片间高速互联技术(对标NVIDIA NVLink):为构建万卡级算力集群提供关键支撑,第三代已支持万卡扩展 [21534]
  • 自主指令集:不依赖任何外部指令集授权,完全自主可控 [21548]

架构师视角:DSA路线在AI推理场景中的优势非常明显——专用硬件可以针对Transformer等特定模型做极致优化,在同等制程下实现更高的能效比。这也是为什么燧原能用12nm做出”媲美7nm GPU”性能的底气所在。但DSA的代价是”通用性”——当模型架构发生变化(如从CNN到Transformer再到SSM),DSA需要重新适配,而GPGPU天然具备灵活性。

4.10.1.6. 训推一体架构(邃思400/L600)

2025年7月发布的L600是燧原第四代产品,定位为 训推一体 AI芯片,是国内首款原生支持FP8低精度计算的AI芯片 [21473]。其核心亮点:

  • 144GB存储容量3.6TB/s存储带宽800GB/s互联带宽 [21476]
  • 支持单层最多128卡全互联拓扑 [21478]
  • 性能对标NVIDIA H20 GPU [21482]
  • 面向万卡乃至十万卡集群扩展 [21477]

值得注意的是,L600的144GB显存容量在国产AI芯片中属于第一梯队水平,与华为昇腾910C的128GB HBM处于同一量级。但燧原未公开L600的显存类型(HBM2e还是HBM3),以及FP16/BF16的具体算力指标,这些关键参数尚待进一步披露。

4.10.1.7. 12nm工艺的战略选择

燧原前三代产品均采用 格芯12nm FinFET 工艺,这是一个值得深入分析的技术决策 [21355]。在业界普遍追逐7nm/5nm的背景下,燧原选择”成熟制程+架构创新”的路线,核心逻辑是:

  • 供应链安全性:格芯12nm不受美国对华先进制程出口管制的影响(格芯已放弃7nm以下研发)[21620]
  • 成本优势:12nm成熟工艺的晶圆成本远低于7nm,有助于提升产品性价比
  • 架构创新补偿:通过GCU-CARA架构的优化,在12nm上实现了与7nm GPU匹敌的计算能力 [21357]

但这也意味着,当NVIDIA在4nm/3nm上持续迭代时,燧原仅靠架构优化来追赶的难度会越来越大。制程差距的”天花板效应”将在未来2-3代产品中愈发明显。


4.10.1.8. 软件生态

燧原的软件生态是其DSA路线最大的”双刃剑”——一方面,自研全栈软件带来了完全自主可控的优势;另一方面,不兼容CUDA意味着极高的开发者迁移成本。

4.10.1.9. 驭算TopsRider全栈平台

驭算TopsRider是燧原自主知识产权的计算及编程平台,通过软硬件协同架构设计,充分发挥邃思芯片的性能 [21416]。其技术栈包括:

  • 驱动程序
  • 自研编译器与编译语言
  • 算子库(基于算子泛化技术及图优化)
  • 工具链
  • AI Framework:稳定适配主流深度学习框架(PyTorch、TensorFlow等),并提供自定义推理框架TopsInference [21443]

4.10.1.10. 大模型适配

燧原已完成对 DeepSeek全量模型 的高效适配,包括DeepSeek-R1/V3 671B原生模型及多个蒸馏模型 [21539]。在DeepSeek-R1推理场景中,燧原与清程极智合作开发的推理平台,可在不同场景下实现最高10倍的吞吐量提升,实测并发量是vLLM等开源框架的4倍 [21641]

燧原S60还与百度飞桨完成大模型推理I级兼容性测试,成为国内首家完成适配认证的芯片厂商 [21630]

4.10.1.11. 生态的核心挑战:不兼容CUDA

燧原的DSA路线最核心的挑战是 不兼容CUDA。开发者使用燧原芯片需要迁移到其自有的软件栈上,迁移成本极高 [21495]。这直接解释了为什么燧原如此依赖腾讯——只有像腾讯这样有能力深度定制底层软件的超大型客户,才愿意配合进行大规模适配与部署。

燧原的软件生态策略可以理解为:“不是让所有人用,而是让最需要的人用得好”。在推理侧,对CUDA生态的依赖相对训练侧更低,成本、能效和部署效率的重要性更高,这为燧原的DSA路线提供了切入窗口 [21541]


4.10.1.12. 商业化与客户

4.10.1.13. 营收结构

燧原科技的营收主要来自两大业务板块 [21462]

业务板块2025年1-9月营收占比
AI加速卡及模组4.1亿元76.73%
智算系统及集群1.23亿元23.03%

4.10.1.14. 客户集中度:腾讯深度绑定

燧原科技与腾讯的关系是理解其商业模式的 核心密码。腾讯不仅是第一大外部股东(持股19.95%),更是第一大客户 [21460]

期间腾讯相关营收占比说明
2023年33.34%直接销售+AVAP模式
2024年37.77%直接销售+AVAP模式
2025年83.79%急剧上升,含直接销售+AVAP模式
2025年Q1-Q371.84%其中对腾讯科技直接销售超过50%

注:AVAP模式指燧原通过腾讯指定的服务器厂商(如弘信电子等)间接销售产品。

前五大客户集中度极高:2022-2024年及2025年前三季度,前五大客户销售占比分别达94.97%、96.5%、92.6%和96.41% [21494]

4.10.1.15. 腾讯绑定的”双刃剑”效应

正面影响

  • 腾讯为燧原提供了确定的规模化订单和收入来源
  • 腾讯的深度技术协同,帮助燧原快速迭代产品
  • 腾讯云TCE与燧原在甘肃庆阳等地的智算中心联合开发,打造了”国产异构万卡智算数据云平台” [21499]

负面影响

  • 向腾讯销售的产品单价低于非关联第三方,拉低了毛利率。2024年毛利率仅30.59% [21421]
  • 严重削弱了议价能力和独立性 [21421]
  • 腾讯之外的大客户拓展极为有限,运营商、金融、政务等市场的规模化订单尚未形成

4.10.1.16. 智算中心部署

燧原在智算中心领域的落地进展是国产AI芯片中最突出的之一:

智算中心规模时间说明
甘肃庆阳万卡推理集群10016张S60卡2024年12月中国首个国产万卡推理集群,投资3.07亿元 [21588]
无锡太湖亿芯智算中心2025年聚焦AIGC、生物医药、智能制造 [21597]
成渝智算中心2024年四川并济科技投建,燧原提供算力底座 [21594]
之江实验室联合研究中心2021年燧原-之江人工智能芯片联合研究中心 [21594]

S60推理加速卡截至2025年底累计出货约10万卡,覆盖国内五大智算集群 [21628]。2025年全年AI加速卡及模组销售量6.6万张 [21633]


4.10.1.17. 财务、营收、融资与估值

4.10.1.18. 核心财务数据(招股书披露)

指标2022年2023年2024年2025年2026年Q1
营业收入0.90亿3.01亿7.22亿9.90亿2.87亿
营收增速+234%+140%+37%+1475% YoY
归母净利润-11.16亿-16.65亿-15.10亿-11.64亿
研发费用9.88亿12.29亿13.12亿
研发费用率1096%408%182%

数据来源:[21456]

2022-2024年营收复合增长率183.15% [21458]。2023-2025年三年复合增长率81.32% [21459]。截至2025年9月末,累计未弥补亏损-41.65亿元(合并口径)[21454]

公司预计2026年上半年营收10.6-11.5亿元,同比增长258.68%-289.13%,有望追平2025年全年水平。公司预计最早2026年实现盈亏平衡 [21459]

4.10.1.19. 融资历程

轮次时间主要事件
天使轮2018年上海科创投集团等国资LP参与 [21587]
Pre-A~A轮2019年腾讯开始参与投资
B轮2020年5月融资7亿元,武岳峰资本领投,腾讯跟投 [21433]
多轮后续2020-2024年腾讯连续投资6轮,累计近70亿元融资 [21406]
E轮2024年12月投后估值约202亿元 [21399]

4.10.1.20. 估值变迁

时间估值来源
2024年(胡润全球独角兽榜)160亿元胡润研究院 [21404]
2024年12月(E轮)约202亿元(投后)招股书 [21399]
2025年(胡润全球独角兽榜)205亿元胡润研究院 [21405]

4.10.1.21. IPO进度

  • 2024年8月:首次IPO辅导备案,辅导机构中金公司 [21401]
  • 2025年10月:辅导机构变更为中信证券 [21381]
  • 2026年1月:完成IPO辅导,科创板IPO获受理,拟募资60亿元 [21401]
  • 2026年6月:科创板IPO过会,上市委审议通过 [21537]

更换辅导机构从”中金”到”中信”仅3个月即叩响科创板大门,这个速度在国产芯片IPO中相当罕见,侧面反映了燧原在监管层面的推进力度。

募资用途:60亿元拟用于第五代和第六代AI芯片系列产品的研发和产业化、先进人工智能软硬件协同创新项目等 [21401]


4.10.1.22. 核心竞争力

  1. 全栈自研DSA架构:国内唯一从指令集、微架构、互联技术到软件平台全部自研的云端AI芯片公司,技术自主可控程度最高 [21534]
  2. “AMD双子星”团队:赵立东+张亚林的组合,兼具硅谷大厂芯片研发经验、中国半导体产业人脉和工程量产能力,团队在AMD时期就有成功领导千人规模团队开发数十款世界级芯片的履历 [21384]
  3. 腾讯战略绑定:腾讯连续6轮投资+深度业务协同,提供了确定的收入来源和规模化验证场景 [21501]
  4. 云端AI推理规模化落地:S60累计出货10万卡,建成国内首个万卡推理集群,在国产AI推理市场处于领先地位 [21628]
  5. 训推一体产品布局:L600原生支持FP8,对标H20,是目前国产AI芯片中少数能同时覆盖训练和推理的训推一体产品 [21473]
  6. IPO后资金充裕:60亿元募资将用于第五/六代芯片研发,为公司未来3-5年的技术迭代提供资金保障 [21401]

4.10.1.23. 主要短板

  1. 腾讯依赖症严重:2025年83.79%营收来自腾讯,客户集中度在国产AI芯片中几乎是最高的。这不仅带来定价权丧失(毛利率仅30%),更构成独立性风险——如果腾讯自研芯片或转向其他供应商,燧原将面临毁灭性打击 [21460]
  2. DSA架构的生态壁垒:不兼容CUDA,开发者迁移成本极高。这意味着燧原很难像摩尔线程那样通过”CUDA兼容”吸引广泛的开发者社区,客户拓展只能”一家一家啃” [21495]
  3. 毛利率偏低:30%的毛利率在芯片行业中处于低位(NVIDIA毛利率70%+),且低于腾讯的定价压力短期内难以改变 [21421]
  4. 训练能力待验证:虽然L600定位训推一体,但燧原在超大规模模型预训练(千卡/万卡训练集群)方面的公开验证数据较少,市场对其训练能力的认可度不如推理 [需进一步核验]
  5. 持续亏损:成立8年、累计亏损超51亿元,虽预计2026年盈亏平衡,但盈利持续性存疑 [21466]
  6. 制程工艺受限:前三代产品均使用格芯12nm,邃思320/400制程未公开,在先进制程获取方面存在不确定性 [21415]

4.10.1.24. 供应链风险

风险维度具体情况严重程度
晶圆代工前三代使用格芯12nm(不受美国出口管制直接影响);第四代制程未公开。若第三代/第四代使用台积电7nm,则面临2024年11月后美国对华7nm AI芯片供应限制风险 [21608]⚠️ 高
先进封装邃思2.0使用日月光2.5D封装,依赖中国台湾供应链 [21374]⚠️ 中
HBM显存L600配备144GB大容量显存,若使用HBM2e/HBM3,则依赖三星/SK海力士供应,受美国对华HBM出口管制影响 [21523]⚠️ 高
EDA工具作为Fabless设计公司,依赖Synopsys/Cadence等美国EDA厂商,存在被限制风险⚠️ 中
实体清单目前燧原本体未被列入实体清单(公开信息),但其代工供应链可能因美国对华半导体管制新规而受限⚠️ 中

燧原在招股书中明确披露了”国际贸易摩擦可能产生的供应链风险”,包括晶圆代工、存储IDM、封装测试等环节的采购受限风险 [21514]


4.10.1.25. 与 NVIDIA / AMD / Intel 的对应关系

对比维度燧原科技NVIDIAAMDIntel
架构路线DSA(GCU-CARA)CUDA GPU(通用)CDNA(计算)/RDNA(图形)Xe(GPU)/Gaudi(AI)
最接近对标NVIDIA Tensor Core + NVLink(功能层面)AMD CDNAIntel Gaudi(DSA推理)
训练芯片L600(对标H20)H100/H200/B200MI300XGaudi 3
推理芯片S60L40S/L4
软件栈驭算TopsRider(自研)CUDAROCmoneAPI
CUDA兼容原生部分兼容(HIP)部分兼容
团队渊源赵立东/张亚林曾任职AMD(2007-2014/2008-2019)核心团队来自AMD

燧原的DNA与AMD渊源最深(两位创始人均来自AMD),但其技术路线选择——DSA架构——却又与AMD的GPGPU路线走上分岔。这或许反映了创始团队在AMD期间对”通用GPU在AI场景中的效率损失”有深刻理解后做出的战略选择。


4.10.1.26. 未来3年判断

2026-2028年核心判断

  1. IPO红利期(2026-2027):60亿元募资到位将支撑第五/六代芯片研发,短期内资金充裕。但上市后市场将重点关注腾讯依赖度下降的速度和毛利率改善的幅度。

  2. 腾讯依赖”减毒”是关键:如果燧原能在2027年前将腾讯营收占比降至50%以下,并成功拓展2-3家运营商或大型互联网客户,估值逻辑将发生质变。否则”腾讯影子股”的标签将长期压制估值。

  3. L600的市场验证:L600是燧原从”推理为主”向”训推一体”转型的关键产品。如果L600能在万卡训练集群中证明稳定性(对标NVIDIA H20的实际表现),将打开训练市场的新空间;反之,如果L600仅停留在推理场景,估值天花板将受限。

  4. 制程升级是硬挑战:前三代产品的12nm工艺已接近天花板,第五/六代芯片必须向更先进制程(7nm及以下)演进。在台积电受限、中芯国际先进制程产能有限的背景下,制程选择将直接影响性能竞争力。

  5. 竞争格局恶化风险:摩尔线程(MUSA+全功能GPU)、壁仞(GPGPU+大算力)、华为昇腾(全栈自主+政企市场)都在加速布局,燧原的DSA路线在”推理”场景的比较优势可能被蚕食。

  6. 并购可能性:如果腾讯依赖度持续高企而独立获客能力不足,不排除腾讯进一步增持甚至收购燧原的可能性。但考虑到燧原IPO后的公众公司身份,这种概率在短期内较低。

核心评级:燧原科技是国产AI芯片中 “技术最独立、商业最依赖” 的矛盾体。其DSA全栈自研路线代表了”长期主义”的技术信仰,但腾讯依赖症和CUDA生态壁垒又构成短期商业化的核心约束。未来3年,燧原能否在”保持技术独立性”和”扩大商业独立性”之间找到平衡,将决定其是成为”中国版Google TPU”还是”腾讯AI芯片子公司”。

4.11. 砺算科技

同上

砺算科技是国产GPU赛道上 最特殊、也最令人揪心的存在。当所有国产GPU公司都在AI训练/推理的算力狂潮中奔跑时,它选择了一条最艰难、最孤独的路径——从零开始,做一颗真正的、全自研的图形渲染GPU(TrueGPU)。它不买IP、不绕道GPGPU、不以AI之名起家,而是直接对标NVIDIA GeForce消费级显卡,试图正面硬刚这个被巨头垄断了数十年的市场。它的技术血统来自S3 Graphics——一家比NVIDIA更早的GPU先驱;它的产品在2026年拿到了 全球第四、中国第一的微软WHQL认证;但与此同时,它也是资金链最脆弱、商业化最滞后、团队最动荡的公司——累计亏损超5亿元、营收近乎为零、两度欠薪。它是中国GPU产业的一颗“火种”,但这颗火种正于寒风中摇曳。

4.11.1. 团队与技术血统:来自S3的“活化石”与黄埔军校

理解砺算科技,必须从它的团队血液入手。这条血脉链堪称中国GPU产业最完整的“技术传承图谱”:

S3 Graphics(1989-2011)→ VIA/兆芯(2013-2018)→ 中天恒星(2018-2021)→ 砺算科技(2021-至今)

砺算的三位联合创始人——联席CEO宣以方(中国台湾籍)、联席CEO孔德海(美国籍)、CTO牛一心(美国籍)——均来自S3 Graphics,这家成立于1989年的公司,比NVIDIA(1993年)早了整整4年,在1990年代曾是全球GPU市场的“初代霸主”[21672]。S3的Trio图形芯片年销2000万颗,ViRGE是全球第一代3D加速GPU芯片,累计销量超过1亿颗[21802]

三位创始人的履历,在国产GPU赛道中堪称“顶配”:

创始人角色关键履历
宣以方联席CEO台湾交通大学毕业,1992年S3 GPU创始团队成员、研发部副总裁,领导量产15代GPU芯片,近30年GPU全流程经验[21803]
孔德海联席CEO清华大学无线电系84级,中国第一代超大规模集成电路(VLSI)设计师,1992年起从事GPU研发,硅谷20+年芯片设计/管理/投资经验,曾参与创立三个硅谷天使基金[21803]
牛一心CTO1994年加入S3,首个S3D引擎研发者,全球第一代3D加速GPU ViRGE负责人,18年GPU研发副总经理,带领硬件设计支持DirectX/OpenGL/OpenCL全部标准[21683]

团队平均从业超过18年,拥有15代以上GPU迭代量产经验[21808]。这种“老炮”级团队配置,在国产GPU创业公司中绝无仅有——摩尔线程的核心来自NVIDIA中国区,壁仞的核心来自华为海思和AMD,沐曦的核心来自AMD,而砺算的团队来自比NVIDIA更早的GPU先驱。

🤔 业内有一个流传甚广的梗:S3 Graphics堪称中国GPU产业的“黄埔军校”。华为海思GPU笛卡尔团队的洪州、壁仞科技和沐曦的核心成员,都直接或间接继承了S3的技术积累。换句话说,今天中国GPU赛道的半壁江山,都能追溯到S3这条血脉[21819]

但这段传承也暗藏裂痕。2018年,S3元老黄永、宣以方、牛一心、孔德海等人从兆芯出走,创立了 中天恒星。2021年上半年,中天恒星爆发资金问题,欠薪裁员,宣以方、牛一心、孔德海等人带领部分员工再次出走,成立了砺算科技[21668]。这意味着,砺算的核心团队在短短三年内经历了 两次创业失败,团队凝聚力和心理韧性都承受了巨大考验。

4.11.2. 产品与技术:TrueGPU天图架构——全自研的“真·GPU”

4.11.2.1. 架构定位:为什么说它是“真·GPU”?

砺算科技的产品定位极为清晰且独特:它做的是图形渲染GPU(TrueGPU),而非GPGPU或AI专用加速器[21675]。这在国产GPU赛道中几乎是独一份的存在。

关键区别在于:

  • 摩尔线程 的“春晓/苏堤”架构,底层基于Imagination BXT IP授权(尽管宣传为“自研”)[21746]
  • 壁仞/天数智芯/燧原 等,本质上做的是GPGPU(通用计算GPU),图形渲染能力近于零
  • 砺算 的TrueGPU天图架构,从指令集到计算核心完全自主设计,不依赖任何外部IP授权[21759]

这意味着砺算走了一条 最难但最正统 的路:它必须同时攻克图形渲染管线(Graphics Pipeline)的所有技术难点——几何处理、光栅化、纹理映射、像素着色、显示输出,以及完整的DirectX/Vulkan/OpenGL驱动栈。这是NVIDIA花了几十年才建立起来的护城河。

4.11.2.2. 7G100系列产品规格

2025年7月26日,砺算正式发布首款GPU芯片“7G100”系列(谐音“奇迹”),搭载自研TrueGPU天图架构[21751]

参数7G106(消费级)7G105(专业级)
制程TSMC N6 (6nm DUV)TSMC N6 (6nm DUV)
显存12GB GDDR624GB ECC
显存位宽192-bit192-bit
纹理单元 (TMUs)192192
光栅单元 (ROPs)9696
FP32算力24 TFLOPS24 TFLOPS
TDP~225W
接口PCIe 4.0 x16PCIe 4.0 x16
显示输出4×DP 1.4 (无HDMI)4×DP 1.4
图形APIDX12, Vulkan 1.3, OpenGL 4.6同左
计算APIOpenCL 3.0同左
光线追踪❌ 不支持❌ 不支持
视频编解码AV1/HEVC 8K60解码, 4K30编码同左
虚拟化SR-IOV (最多16容器)同左
售价¥3,299 (~$485)未公开

来源:[21704]

4.11.2.3. 性能实测:跑分亮眼,游戏实际表现“勉强及格”

7G100的实测表现呈现出 “跑分与游戏体验严重脱节” 的典型早期GPU特征:

合成基准测试(亮眼):

  • Geekbench OpenCL: 111,290分,比RTX 4060(101,028)高出约10%,介于RTX 4060和RTX 5060之间[21820]
  • 3DMark Fire Strike: 26,800分,与RTX 3060接近[21704]
  • 3DMark Steel Nomad: 2,256分[21734]

游戏实测(骨感):

  • 《黑神话:悟空》1080P高画质:~70 FPS(发布会现场演示)[21744]
  • 《赛博朋克2077》1080P:~88 FPS,而5年前的RX 6600 XT超过200 FPS[21732]
  • 《巫师3》1080P:57 FPS[21725]
  • 《艾尔登法环》1080P:80 FPS[21725]
  • 普遍结论:实际游戏性能约等于RTX 3060,而非宣传对标的RTX 4060[21688]

资深架构师点评:Geekbench OpenCL跑分是纯计算吞吐量测试,对图形渲染管线几乎不涉及。7G100在合成测试中超越RTX 4060、在游戏实测中跌回RTX 3060水平,说明其 Shader核心计算能力尚可,但图形固定功能单元(光栅化、纹理、ROP)以及驱动层面的游戏优化远未成熟。这是所有自研GPU的必经之路——NVIDIA的驱动优化也是几十年的积累。

4.11.2.4. AI能力:宣推一体,但非主战场

砺算在发布会上展示了7G100运行DeepSeek大模型和剪映软件的能力[21744]。7G100支持INT8整数运算,具备一定的AI推理能力[21767]。但需要明确指出:7G100的AI能力更多是“有”而非“优”,其24 TFLOPS的FP32算力换算为FP16约为48 TFLOPS,在AI训练场景中完全不具竞争力。其“渲推一体GPU”的定位,更多是面向 云渲染、云桌面、AIGC轻量推理 等场景,而非严肃的AI训练或大规模推理。

4.11.3. 软件生态:WHQL认证——一块真正的“金字招牌”

4.11.3.1. 全球第四家WHQL认证GPU厂商

2026年2月,砺算科技正式通过微软Windows硬件质量实验室(WHQL)认证,成为 全球第四家、中国第一家 获此认证的GPU厂商,仅次于NVIDIA、AMD、Intel[21840]

WHQL认证的含金量不容低估:

  • 意味着砺算的显卡驱动通过了微软的 上百项兼容性、稳定性、安全性测试
  • 用户无需手动关闭驱动强制签名验证,可以像N卡/A卡一样“即插即用”
  • 驱动可通过Windows Update自动更新[21849]
  • 认证覆盖全系列产品:LX 7G100/7G106(消费级)、LX Pro/Max/Ultra(专业级)[21853]

这是国产GPU在 软件工程化和Windows生态兼容性 上取得的最具标志性的突破。对比摩尔线程多年努力仍未拿到WHQL认证,砺算的这一步具有里程碑意义。

4.11.3.2. 图形API兼容性

砺算7G100支持:

  • DirectX 12(但不支持DX12 Ultimate,因无光线追踪)
  • Vulkan 1.3
  • OpenGL 4.6
  • OpenCL 3.0

来源:[21704]

在引擎层面,砺算已跑通UE5、Unity、Blender Cycles、DaVinci Resolve等主流引擎/软件的演示[21821]。专业卡适配优化了50余款专业应用,兼容AutoCAD、Solidworks、Blender、Maya等主流CAD/3D建模软件,支持Intel、AMD、海光、鲲鹏、飞腾、兆芯、龙芯等国内外CPU以及Windows、麒麟、UOS、Ubuntu等操作系统[21797]

4.11.3.3. 软件生态的真实评价

砺算官方在专家交流中坦承:“没有三五代产品,很难和英伟达掰手腕”[21781]。这个判断非常清醒。当前7G100的软件生态处于“能用”阶段,距离“好用”还有显著差距:

  • 游戏适配:已适配近百款游戏,但距离NVIDIA数千款游戏的优化覆盖相去甚远[21944]
  • 驱动成熟度:WHQL认证是入门券,但驱动在特定场景下的稳定性和性能优化仍需大量打磨
  • 开发者工具:尚无类似CUDA的开发者生态,OpenCL是唯一通用计算API

4.11.4. 商业化与财务:产品卖爆了,但公司还在生死线上

4.11.4.1. 销售数据:首批3万+张显卡48小时售罄

2026年5月20日,砺算LX 7G100创始版在京东平台首发,首批3万+张显卡48小时内售罄,按¥3,299的MSRP计算,预售收入超过1,455万美元(约1亿人民币)[21688]。创始版限量1000张,每张由联席CEO宣以方亲笔签名编号[21688]。砺算在京东显卡品牌排名中一举跃升至第六位,仅次于华硕、七彩虹、技嘉、微星等国际大厂[21688]

2026年6月18日,LX Pro(专业工程应用)和LX Ultra(云计算)正式上市,同时创始版补货[21688]

4.11.4.2. 财务现实:零营收、大亏损、靠输血

然而,销售火爆的背后是令人窒息的财务数据:

指标2023年2024年2025年2025年1-7月
营业收入002.48万元0
净亏损~1.5亿元~2.1亿元4.45亿元~1.5亿元

来源:[21712]

累计亏损约5.1亿元,而2025年全年营收仅2.48万元——这几乎等于零[21712]。2025年9月量产后,首批显卡交付要到2026年才产生实质收入,因此2025年财报几乎为零营收。

东芯股份(688110.SH)作为砺算第一大股东(持股35.87%),2025年确认对砺算的投资亏损约 1.66亿元,成为东芯2025年净亏损扩大的主要原因之一[21963]。东芯股份2025年预计归母净亏损1.74-2.14亿元,存储主业已实现盈利,GPU投资是唯一的“出血点”[21958]

4.11.4.3. 融资历程:估值一年暴涨17.5倍

时间轮次金额投前估值关键出资方
2022.2天使轮数亿元达泰资本、将门创投、万物创投、海松资本等
2022.10Pre-A轮过亿元协立创投、君桐资本、活水资本、哲方资本等
2024.8战略融资3.28亿元~2亿元东芯股份(2亿元)、其他
2025.8战略融资5亿元35亿元东芯股份(2.11亿元)、亨通集团、道禾长期投资等

来源:[21679]

估值从2亿飙升至35亿,翻了17.5倍,而其营收几乎为零。这反映了资本市场对“国产唯一全自研图形GPU”这一标签的极度稀缺性溢价[21859]。虎嗅对此的评论一针见血:“35亿这个数字,已经把’成为国产GPU前三’的预期都算进去了。2026年如果产品卖不动,估值可能迅速回调”[21859]

4.11.4.4. 客户结构:有框架协议,尚无实质订单

砺算已与某国内领先云计算服务商签署《战略合作框架协议》,涉及国产云桌面、AIPC、云渲染、数字孪生等领域合作,但 截至目前尚未签署实际订单,尚未产生收入[21714]。这意味着砺算当前的收入几乎全部来自消费级显卡零售,B端商业化尚未真正启动。

4.11.5. 供应链风险:6nm的“相对安全”与“绝对脆弱”

砺算7G100采用 台积电N6(6nm DUV) 工艺[21704]。这是目前国产GPU中一个微妙的制程选择:

相对安全的一面:

  • 6nm DUV不属于美国对华出口管制的“7nm及以下先进制程”核心范围。2024年11月台积电断供的主要是7nm EUV及以下工艺[21890]
  • 6nm DUV是成熟制程,台积电有充足的产能

绝对脆弱的一面:

  • 如果美国进一步扩大管制范围到6nm,砺算将面临代工断供风险
  • 三星6nm是备选,但良率和产能都无法与台积电匹敌
  • 中芯国际的6nm能力尚不明确(公开资料有限,需进一步核验)

此外,砺算7G100 不支持HDMI输出,原因是HDMI Licensing的高额授权费用[21704]。这虽然是一个成本决策,但也反映出公司在成本控制上的极度紧张。

4.11.6. 团队与治理:两度欠薪,信任危机是最深的裂痕

砺算的团队故事是国产GPU赛道中最令人唏嘘的。核心团队在三年内经历了两次创业失败:

  • 2023年:砺算首次爆发资金问题,进入超过一年的非正常运营状态,曾欠薪长达 7个月[21685]
  • 2024年8月:东芯股份等新股东注资3.28亿元,暂时度过危机
  • 2025年3月:资金再次耗尽,欠薪问题重现,最新一轮欠薪已持续两月[21685]
  • 2025年5月:高管透露新一轮融资最快上半年到账[21710]

一位砺算资深员工对媒体表示:“从技术和产品角度,有自信G100可以吊打市面上另一家GPU企业的产品……但目前很多人都出现了摆烂心态,随便做做就行了”[21685]。这句话道出了砺算最核心的危机:技术团队的心理防线正在瓦解

2025年5月芯片点亮后,砺算联合创始人孔德海对《科创板日报》表示:“算是跨过了一个难关,后面流片、点亮、量产,比较可控了”[21678]。但东芯股份已明确表示 不会参与砺算的新一轮融资[21708],这意味着砺算必须寻找新的“金主”。

4.11.7. 核心竞争力与主要短板

  1. 全自研TrueGPU架构:从指令集到计算核心完全自主,是国产GPU中唯一真正不依赖外部IP授权的图形GPU架构。这赋予了砺算在架构演进上的完全自主权,不受制于Imagination、ARM等IP厂商的路线图制约[21928]

  2. 团队经验无与伦比:核心团队拥有15代以上GPU迭代量产经验,这在全球GPU人才池中都极为稀缺[21808]

  3. WHQL认证的先发优势:作为中国唯一一家通过微软WHQL认证的GPU厂商,砺算在Windows生态兼容性上建立了明确的壁垒[21840]

  4. 图形渲染的独特定位:在几乎所有国产GPU公司都涌向AI/GPGPU的背景下,砺算选择了图形渲染这个“Hard模式”赛道,差异化竞争优势明显[21675]

4.11.7.1. 主要短板

  1. 财务状况极度脆弱:累计亏损超5亿,营收近乎为零,高度依赖外部输血,资金链断裂风险始终存在[21712]

  2. 团队稳定性堪忧:两度欠薪严重打击了员工士气,核心技术人员可能流失[21685]

  3. 产品性能差距:实际游戏性能仅相当于RTX 3060(发布于2021年),与NVIDIA最新产品差距约2-3代[21732]

  4. 定价缺乏竞争力:¥3,299的售价与RTX 5060 Ti(约¥2,500-3,000)重叠,性能却落后一代以上[21692]

  5. AI训练能力空白:7G100在AI训练场景中几乎无竞争力,无法切入当前最大的算力需求市场

  6. 无光线追踪:在2026年的游戏市场中,缺少硬件光追是明显的功能缺失[21704]

4.11.8. 与NVIDIA/AMD/Intel的对应关系

砺算是国产GPU中 最接近NVIDIA GeForce产品线定位 的公司,但技术差距显著:

维度砺算7G106NVIDIA RTX 4060NVIDIA RTX 3060
制程6nm5nm (TSMC 4N)8nm (Samsung)
显存12GB GDDR68GB GDDR612GB GDDR6
FP32算力24 TFLOPS15 TFLOPS12.7 TFLOPS
光线追踪✅ 3rd Gen✅ 2nd Gen
DLSS✅ DLSS 3✅ DLSS 2
实际游戏性能≈RTX 3060基准
价格¥3,299~¥2,200已退市

结论:7G100在纸面算力上不输RTX 4060,但在实际游戏性能、功能完整性和生态成熟度上,大约落后NVIDIA两代。它更像是2021年RTX 3060的“2026年国产复刻版”——能跑游戏,但远谈不上性价比。

4.11.9. 未来3年判断

4.11.9.1. 乐观情景(概率25%)

  • 2026年消费级显卡持续热销,年销量突破30万张,营收达10亿元级别
  • B端云渲染/云桌面市场打开,形成稳定收入来源
  • 新一轮融资顺利到位,估值突破100亿元
  • G200系列(2027年)实现性能跃升,接近RTX 5060水平
  • 最终被大型科技集团或央企收购,成为“国产GPU国家旗舰”的一部分

4.11.9.2. 基准情景(概率45%)

  • 消费级显卡维持一定销量,但无法突破50万张/年
  • B端市场进展缓慢,营收不足以覆盖研发投入
  • 持续依赖东芯股份及国资输血,估值长期在30-50亿区间徘徊
  • 团队处于“半稳定”状态,核心人才持续流失
  • 作为国产图形GPU的“独苗”被保留,但难以做大

4.11.9.3. 悲观情景(概率30%)

  • 市场竞争加剧,摩尔线程等对手推出更具性价比产品
  • 资金链再次断裂,第三次欠薪引发大规模离职
  • 东芯股份选择止损退出,砺算进入破产重整
  • 技术资产被其他厂商或国资平台低价收购

4.11.10. 核心评价

砺算科技是国产GPU赛道中 最具技术含金量、也最令人揪心的公司。它做出了中国第一颗真正全自研的图形GPU,拿到了全球唯四的微软WHQL认证,证明了“中国人也能从零造出显卡”——这件事本身已经具有历史意义。

但砺算也暴露了国产GPU创业的残酷现实:在NVIDIA每年投入数十亿美元研发、拥有数十年生态积累的赛道上,一家初创公司即使拥有顶级团队,也极难独立生存。 砺算两度濒临破产,恰恰说明“技术正确”不等于“商业正确”。

从投资角度看,砺算最大的价值在于其 “唯一性”——它是中国唯一真正的全自研图形GPU公司。如果国产替代的浪潮持续,如果国家决心扶持一个“中国的NVIDIA”,砺算的团队和架构是最接近这个目标的火种。但这把火是否能在资金断流之前烧到足够大,是一个巨大的不确定性。

一句话总结:砺算科技的TrueGPU天图架构是中国图形GPU的“火种”,但火种正在寒风中摇曳。

4.12. 芯动科技

同上

4.12.1. 公司概况

芯动科技(Innosilicon Technology Ltd.)是中国大陆最老牌的半导体IP和芯片定制服务商之一,成立于2006年,2007年正式注册(北京),核心运营总部位于武汉东湖高新区,在珠海、苏州、西安、上海、深圳、大连、成都等地设有研发中心,海外在硅谷、多伦多、渥太华、伦敦设有办事处[21997]。公司以”一站式IP和芯片定制+GPU”双轮驱动,聚焦”计算、存储、连接”三大赛道,是国内极少数横跨IP授权、ASIC定制和GPU产品三层面的企业[22009]

项目详情
公司全称芯动科技(北京)有限公司 / 芯动微电子科技(珠海)有限公司
英文名Innosilicon Technology Ltd.
成立时间2006年创立,2007年10月注册
总部武汉(运营)/ 北京(注册)/ 珠海(横琴重要基地)
创始人/实控人敖海(董事长兼CEO)
核心高管敖钢(联合创始人/副总)、毛鸣明(工程副总)、杨喜乐(首席算法科学家)、高专(IP研发副总)、何颖(GPU项目总监)
技术路线Imagination GPU架构授权 + 自研演进 + 自研高速接口IP + RISC-V CPU
是否严格GPU是——全功能GPU(图形渲染+AI计算+科学计算),但GPU计算架构源自Imagination授权
代表产品风华1号(2021,12nm)、风华2号(2022,桌面)、风华3号(2025.9,全功能)
员工规模1000+人研发团队(截至2026年)
客户全球300+企业,含AMD、微软、海思等;IP授权累计逾100亿颗SoC芯片量产
融资/估值非上市,估值约300亿元(2024年独角兽榜单)[22070]
上市状态未上市,IPO计划未公开披露

架构师评注:芯动科技是国产GPU赛道中最”非典型”的玩家——它不靠风险投资烧钱做GPU,而是以18年IP业务积累的利润反哺GPU研发。芯动副总裁毛鸣明曾公开表示:“我们做GPU可以说没有花投资人一分钱”[22188]。这种”以IP养GPU”的模式,在国产GPU创业公司中独一无二,但也意味着GPU业务的规模受制于IP业务的盈利能力。芯动本质上是一家”IP公司做了GPU”,而不是”GPU公司顺便做IP”——这个基因差异深刻影响了它的产品策略和市场定位。

4.12.2. 创始团队和核心成员背景

芯动科技由4名硅谷归国科学家于2006年创立,核心人物是敖海[21996]

敖海(创始人、董事长兼CEO):拥有15年北美高端芯片综合研发和管理经验,国家”千人计划”引进专家,拥有多项发明专利。曾在美光科技(Micron)任职,带领团队开发多款高速存储芯片。2006年辞去硅谷高薪工作回国创业,在武汉创立芯动科技[21995]。敖海对国内芯片产业链的痛点有切身感受——“我发现国外技术企业对国内工艺支持较差,一般国内代工厂通常会晚于美国企业半年到一年才能拿到一些核心IP”[22186]

敖钢(联合创始人/副总经理):芯动科技的核心对外发言人之一,多次代表公司在公开场合阐述芯动战略。在2021年ICCAD期间接受专访时详细解释了芯动从IP切入GPU的逻辑[21997]

毛鸣明(工程副总裁):负责GPU产品工程落地,是风华系列GPU工程实现的核心人物。在风华1号发布后,他直言”GPU设计的复杂度确实很大,架构从零开始设计的时间周期太长,涉及的专利太多,所以芯动科技选择了’站在巨人的肩膀上’“[22038]

杨喜乐(首席算法科学家):全球GPU芯片领域从几何物理渲染到计算引擎的顶级专家。博士毕业后曾在英国Imagination公司担任架构师,25年间一直从事GPU核心图形引擎的建模和创新,持有GPU 3D计算机图形学核心领域顶级图形专利共计125项。Imagination、苹果等公司最新核心GPU产品的设计、优化和迭代都离不开她的专利和算法[22209]

高专(IP研发副总裁):负责芯动高速接口IP体系,主导了Innolink™ Chiplet互连解决方案的研发[22352]

何颖(GPU项目总监):在风华2号发布会上阐述了芯动GPU的技术路线——“现代GPU的涉及面广、开发应用方面有很多技术壁垒。要拿出一款对标行业先进水平的图形GPU,且流畅兼容各种应用,靠买一款GPU IP是不会有什么建树的”[22040]

架构师评注:芯动团队的核心竞争力不在于GPU架构原创能力,而在于 高速接口IP的深厚积累+GPU工程化落地能力。杨喜乐博士的加入补上了图形引擎核心算法的短板,使得团队具备了在Imagination架构基础上进行深度自研演进的能力。但需要指出的是,芯动团队缺乏像沐曦陈维良/彭莉那样完整的服务器级GPU从定义到量产的全流程经验,其GPU基因更多来自IP定制和嵌入式图形领域。

4.12.3. 发展历程

时间关键事件
2006年敖海等4名硅谷科学家回国,在武汉创立芯动科技[21996]
2007年芯动科技(北京)有限公司正式注册[22006]
2012年成为海思首个国内IP战略合作伙伴,支持华为多款先进产品量产[22392]
2014年开始介入图形领域,开发ISP芯片,后被亚马逊部分收购[22187]
2018年全球首发GDDR6高带宽显存技术,与英伟达同步打破内存墙[22082]
2020年推出INNOLINK Chiplet高性能计算平台;助力中芯国际突破N+1工艺良率瓶颈[22321]
2020年10月与Imagination Technologies达成GPU架构授权合作[22163]
2021年11月发布首款国产4K级显卡GPU”风华1号”[21989]
2022年8月发布”风华2号”桌面GPU,现场签约5亿元合作[22206]
2022年10月”风华1号”正式量产[22212]
2023年风华2号在信创桌面领域规模出货、市占率领先[22127]
2024年加入openKylin GPUSIG,推进国产OS适配[22366]
2025年9月22日”风华3号”全功能GPU在珠海发布,拿下7项行业第一[22067]
2025年Q4风华3号近十家合作伙伴现场签约规模采购,覆盖智算中心、医疗等领域[22287]
2026年风华3号持续推进商业化落地;LPDDR6子系统IP实现头部客户交付[21982]

数据来源:综合整理

架构师评注:芯动的发展节奏呈现出”慢-快-慢”的特征。从2006年成立到2021年发布首款GPU,用了整整15年积累IP技术底座;但从风华1号到风华3号,仅用4年就完成了三代产品迭代。值得注意的是,风华1号到2号是2021→2022(仅1年),而风华2号到3号是2022→2025(3年)——这3年的”空窗期”恰恰是芯动从”图形渲染GPU”向”全功能GPU”战略升级的关键期,也是国产GPU整体从”能用”到”好用”的攻坚期。

4.12.4. 最新产品系列

4.12.4.1. 风华1号(2021年)

  • 工艺:12nm
  • 架构:Imagination BXT-32-1024多核GPU架构
  • A卡(桌面):渲染能力160GPixel/s,FP32性能5 TFLOPS,AI 25 TOPS(INT8),4GB/8GB/16GB GDDR6/GDDR6X显存(带宽304GB/s),功耗约20W
  • B卡(服务器):A卡双芯片Chiplet封装,渲染320GPixel/s,FP32 10 TFLOPS,32GB显存
  • 特性:中国首个同时支持4K桌面和服务器级的GPU,支持32路SR-IOV虚拟化,PCIe 4.0 x16[22045]

4.12.4.2. 风华2号(2022年)

  • 定位:4K级三屏桌面和嵌入式GPU
  • 性能:像素填充率48GPixel/s,FP32 1.5 TFLOPS,INT8 12.5 TOPS
  • 功耗:4~15W,可实现无风扇设计
  • 显存:自研LPDDR5X,带宽10Gbps
  • API支持:OpenGL 4.3、DirectX 11、Vulkan
  • 生态:全面支持飞腾、龙芯、申威、海光、兆芯、鲲鹏等国产CPU;统信UOS、麒麟OS互认证[22040]
  • 市场表现:信创桌面领域”规模出货、市占率领先”[22127]

4.12.4.3. 风华3号(2025年9月)⭐核心产品

“风华3号”是芯动科技当前最具战略意义的产品,官方宣称实现”7个行业第一”[22067]

规格维度详情
显存容量112GB+ 高带宽显存(国内首款单卡>100GB的全功能GPU)
FP32算力78 TFLOPS(足以支撑大模型训练和复杂科学计算)
显存带宽约1.8 TB/s(接近NVIDIA A100的1.935 TB/s水平)[22345]
图形APIDirectX 12、Vulkan 1.2、OpenGL 4.6(国内首款完整支持DX12 Ultimate)
光线追踪硬件级光线追踪,8K分辨率重度渲染
CPU集成国内首款集成开芯院”南湖V3”RISC-V开源CPU的GPU
AI生态兼容CUDA框架、PyTorch、Triton、OpenCL
大模型适配100+主流大模型,单卡支持32B/72B,八卡直驱671B DeepSeek满血版
视频编码国内首款支持YUV444无损视频编码
多屏显示6屏8K30高清异显
医疗全球首款原生支持DICOM高精度灰阶显示
虚拟化支持vGPU虚拟化
超节点支持单节点64卡/128卡/256卡弹性扩展

数据来源:[22051]

4.12.5. 产品技术特点

(1)“全功能GPU”定位——国产独一无二

芯动是国内唯一旗帜鲜明地定位”全功能GPU”路线的厂商。所谓”全功能”,是指一块芯片同时具备图形渲染、AI计算和科学计算三大能力——这正是NVIDIA GeForce/Quadro系列的核心竞争力[22117]。风华3号在发布现场同时演示了3A游戏运行、大模型推理和CAD工业软件,展示了”一卡三用”的能力。

(2)Imagination架构授权 + 深度自研演进

这是芯动GPU技术路线最核心、也最富争议的特点。芯动与Imagination的合作是”架构授权”(Architecture License),与苹果使用Imagination GPU IP的模式相同——不是简单的IP核集成,而是获得底层架构后进行自主修改和演进[22151]。风华1号80%以上的IP为自主研发,包括自研Cache一致性Innolink Chiplet技术、GDDR6/GDDR6X Combo PHY、PUF安全技术等[22151]

(3)“存力-算力-运力-适配力”四力模型

芯动提出了一个独特的技术价值观:在AI时代,GPU的核心竞争力不在于单纯的算力,而在于存力(显存容量)、算力(并行计算能力)、运力(数据搬运带宽)和适配力(软件生态兼容)的深度融合[22117]。风华3号的112GB+超大显存正是这一理念的产物——芯动认为,如果数据不能及时有效到达计算单元,“所谓的算力并不能有效地实现大模型性能”[22101]

(4)RISC-V + CUDA兼容GPU的架构融合

风华3号集成了开芯院”南湖V3”RISC-V处理器核,是国内首款实现”开源RISC-V CPU + 兼容CUDA GPU”架构融合的芯片[22111]。这意味着GPU内部的控制面和管理任务可以由RISC-V CPU处理,降低了对x86/ARM主机CPU的依赖。

(5)自研高速接口IP全栈

芯动拥有国内最完整的高速接口IP组合:GDDR7/6X/6、HBM3E/4、LPDDR6/5X、UCIe Chiplet(INNOLINK™)、PCIe 5/6、112G/224G SerDes[22180]。这些IP不仅是芯动对外授权的核心产品,也是风华GPU内部互联和显存子系统的技术底座。

4.12.6. 软件生态

生态维度风华1号/2号风华3号
图形APIDX11、OpenGL 4.3、VulkanDX12、Vulkan 1.2、OpenGL 4.6
计算框架OpenCLCUDA兼容、PyTorch、Triton、OpenCL
操作系统Windows、Linux(含国产)、AndroidWindows、统信、麒麟、Android
CPU平台x86、ARM、龙芯、飞腾、海光、兆芯、鲲鹏、申威同前 + RISC-V(南湖V3)
大模型不支持100+模型适配,DeepSeek V3/R1/V3.1、Qwen2.5/3全系列、GLM全系列
国产OS认证统信UOS UHQL、麒麟互认证统信、麒麟
开源社区openKylin GPUSIG成员openKylin GPUSIG成员

数据来源:[22042]

架构师评注:风华3号的软件生态是芯动最大的”跳跃式进步”——从风华2号的DX11/OpenGL 4.3直接跳到风华3号的DX12 Ultimate/类CUDA兼容,跨度之大在国产GPU中罕见。但”兼容CUDA”的具体实现方式(是源码级翻译、二进制翻译还是API映射)目前公开资料并未详细说明,这直接决定了实际迁移成本。此外,风华3号虽宣称支持100+大模型,但”支持”的深度(精度、性能、是否仅推理还是包含训练)需要进一步验证。

4.12.7. 商业化与客户

芯动科技的业务分为三个层次:

(1)IP授权业务(基本盘)

  • 全球授权逾100亿颗高端SoC芯片量产[22174]
  • 赋能超300家全球知名企业客户,包括AMD、微软等[22006]
  • 国内唯一全球六大顶尖晶圆厂签约技术合作伙伴(台积电/三星/格芯/中芯国际/联电/英特尔)[22086]
  • 中国高速接口IP市场份额连续12年领先[22009]

(2)芯片定制服务

  • 从55nm到5nm/3nm全覆盖
  • 创行业纪录的300+次先进工艺流片,100%一次成功率[22009]

(3)风华系列GPU

  • 风华1号:推动云游戏、云桌面在互联网主流客户商用[22127]
  • 风华2号:信创桌面领域”规模出货、市占率领先”,2022年发布会现场签约5亿元合作(中能建投、高澜股份、统信软件、麒麟软件、泽塔云、优刻得等)[22206]
  • 风华3号:2025年9月发布会现场近十家合作伙伴签约规模采购,覆盖智算中心、医疗、教育、GIS地理信息、高端服务器等领域[22287]
  • 国潮电竞品牌”赤兔”采用风华GPU芯片[22257]
  • 城市轨道交通等领域已商用[22257]

架构师评注:芯动是国产GPU厂商中少数真正实现了”从IP到芯片到产品到规模出货”完整闭环的公司。尤其是风华2号在信创桌面市场的表现,说明芯动在图形渲染这一”基本功”上确实有两把刷子。但需要清醒认识的是,信创桌面GPU的市场天花板较低(量虽大,单价低,多在千元级别),而风华3号能否在AI算力市场(单价数万至数十万)实现同样的规模出货,将是决定芯动GPU业务天花板的关键。

4.12.8. 财务、营收、融资或估值信息

关键提示:芯动科技(Innosilicon)是一家 未上市 的私人公司,财务数据不公开。公开市场上有一家名为”芯动联科”(688582.SH)的科创板上市公司,但那是 安徽芯动联科微系统股份有限公司,主营MEMS惯性传感器,与芯动科技(Innosilicon)完全不是同一家公司。请读者务必注意区分。

芯动科技(Innosilicon)的公开财务信息

维度信息可信度
估值约300亿元(2024年”中国芯片独角兽50强”榜单)[22070]中等(非官方披露)
融资无公开融资轮次信息。副总裁毛鸣明表示”做GPU没有花投资人一分钱”[22188]高(官方表态)
盈利状态毛鸣明表示”在GPU重大开发投入的情况下,还始终保持盈利”[22188]中等(无审计数据)
IP业务规模公开资料称”IP产业的产值是比较低的”,这是芯动从IP转向GPU的原因之一[22140]高(官方表述)
GPU收入风2号”信创桌面领域规模出货”;风2号发布会现场签约5亿元[22206];风3号有”规模采购”签约[22287]低(具体金额未披露)

架构师评注:芯动科技”不靠融资做GPU”的底气来自其IP业务——18年积累的IP授权费和定制服务费提供了稳定的现金流。但IP业务的营收规模天然有限(全球半导体IP龙头Arm在2017-2019年营收仅为18-19亿美元级别[22140]),这意味着芯动GPU业务的研发投入规模可能受限于IP业务的利润池。如果芯动希望在AI大芯片赛道与华为昇腾、寒武纪等”烧钱派”竞争,未来可能需要考虑外部融资或IPO。

4.12.9. 核心竞争力

① 国内最完整的高速接口IP体系:芯动在GDDR6/6X/7、HBM3E/4、LPDDR5/5X/6、UCIe Chiplet、PCIe 5/6、112G/224G SerDes等高速接口领域拥有全套自研IP,且经过全球顶级代工厂的数百次流片验证。这是芯动最深的护城河——其他国产GPU厂商需要从零自研或外购这些IP,而芯动是自有的。

② “计算+存储+连接”全栈能力:芯动不只是GPU公司,还推出了DDR5内存模组、PCIe 5交换芯片等产品,构建了完整的数据中心互联产品矩阵[22228]。这种”全栈”能力在国产厂商中独一无二,意味着芯动可以提供从GPU到互联到存储的一体化解决方案。

③ 跨代工厂兼容能力:芯动是全球极少数同时在台积电、三星、中芯国际等多家代工厂完成5nm及以下先进工艺验证的IP公司[22403]。这种”工艺可移植性”为芯动GPU提供了宝贵的供应链弹性。

④ 图形渲染能力在国产GPU中领先:风华3号是国内首款支持DX12 Ultimate和硬件光线追踪的国产GPU[22057]。在图形渲染这个”硬功夫”上,芯动明显领先于绝大多数国产AI加速器厂商。

⑤ 以IP养GPU的可持续商业模式:不依赖外部融资烧钱,理论上具有更强的抗风险能力和长期耐力。

4.12.10. 主要短板

① GPU计算架构依赖Imagination授权:风华系列GPU的底层计算架构来自Imagination BXT多核架构。虽然芯动获得了”架构授权”并进行了深度自研演进,但核心计算单元的设计基因并非完全自主。Imagination的GPU架构最初面向移动端和嵌入式,扩展到高性能计算和AI负载的效率和天花板有待验证。

② AI训练能力未经验证:风华3号虽然宣称78 TFLOPS FP32算力,但截至目前(2026年6月),公开资料中未见风华3号在大模型训练场景下的第三方独立评测数据。模型训练不仅需要算力,还需要高效的显存带宽、多卡互联、混合精度支持、分布式训练框架适配等——这些方面的实际表现”公开资料有限,需进一步核验”。

③ 软件栈成熟度存疑:风华3号的”CUDA兼容”能力具体实现方式不明。如果是源码级翻译层,性能和兼容性可能大打折扣;如果是二进制翻译,则面临法律和稳定性风险。

④ 未上市,资本实力受限:300亿估值在半导体行业不算低,但面对华为昇腾(华为集团支持)、寒武纪(上市公司)等竞争对手,芯动在资本层面的弹药储备相对有限。

⑤ 从桌面到数据中心的跨越:风华1号/2号主要在桌面和云游戏场景,风华3号突然转向数据中心AI——这是两个完全不同的技术要求和市场逻辑。数据中心GPU需要ECC显存、更高的可靠性、集群管理、运维工具等,芯动在这方面的积累尚浅。

4.12.11. 供应链风险

芯动科技的供应链风险呈现出”两面性”——在IP层面具有极强的跨平台弹性,但在GPU产品层面存在潜在风险。

风险维度评估说明
Imagination授权风险⚠️ 中高风险Imagination是英国公司,但已被中资背景的Canyon Bridge收购(2017年)。如果未来地缘政治导致授权受限,芯动GPU架构演进将面临严重瓶颈
先进制程代工⚠️ 中等风险芯动与台积电/三星/中芯国际均有合作,理论上可弹性切换。但最先进制程(5nm及以下)仍高度依赖台积电,而台积电对中国大陆GPU公司的代工受美国出口管制约束
HBM/先进显存供应⚠️ 中等风险风华3号的112GB+大容量显存可能采用HBM堆叠或先进GDDR方案。HBM全球供应被SK海力士和三星垄断,均受美国出口管制影响
中芯国际N+1/N+2✅ 相对优势芯动是首个完成中芯国际N+1工艺流片的公司,如果被迫转投国内代工,芯动在国产工艺上的经验积累是重要优势[22409]
EDA工具⚠️ 行业共性风险同所有国产芯片公司

架构师评注:芯动最独特的供应链优势在于——如果台积电全面断供,它可以相对更快地将GPU设计迁移到中芯国际工艺。因为芯动本身是中芯国际的”最佳IP合作伙伴”,且在中芯N+1工艺上有首发经验。但先进制程的性能差距(中芯7nm vs 台积电5nm/3nm)意味着GPU竞争力将显著下降。

4.12.12. 与 NVIDIA / AMD / Intel 的对应关系

维度芯动科技NVIDIAAMDIntel
产品定位全功能GPU(图形+AI+计算)GeForce/Quadro → 对标Radeon/Radeon Pro → 部分对标Arc → 部分对标
图形架构来源Imagination BXT(授权+自研演进)自研(Ada Lovelace/Blackwell)自研(RDNA/CDNA)自研(Xe)
AI计算架构Imagination GPU Shader + CUDA兼容层CUDA Core + Tensor CoreCDNA Matrix CoreXe Matrix Engine
风华1号≈GTX 1050级别(像素填充率)
风华2号≈GTX 1050(48GPixel/s vs 43.3GPixel/s)[22242]
风华3号≈宣称”性能追平国际主流”理论FP32接近A100(78 vs 19.5 TFLOPS),但架构不同理论FP32接近MI250X级别

架构师评注:芯动科技与NVIDIA的最关键差异不在于芯片规格,而在于 架构路线的根本不同。NVIDIA的核心竞争力是”自研GPU架构 + CUDA生态 + Tensor Core + NVLink + 网络(Mellanox)“的垂直整合。芯动走的是一条”Imagination架构授权 + 自研IP + 兼容CUDA生态 + RISC-V”的横向整合路线。从技术哲学角度看,芯动更接近”用IP集成能力打差异化”,而非”用架构原创能力打性能”。这种路线在信创桌面和中低端服务器市场可能有效,但在高端AI训练市场面临较大挑战。

4.12.13. 未来3年判断

2026-2028年,芯动科技面临以下关键节点:

乐观情景(概率约30%):

  • 风华3号在AI推理市场获得规模商用,尤其是在信创智算中心领域打开局面
  • 基于Imagination下一代架构(如D系列)的风华4号推出,性能进一步提升
  • IP业务+GPU业务形成正向循环,启动IPO
  • RISC-V + GPU路线获得政策支持,成为国产替代特色方案

中性情景(概率约45%):

  • 风华3号在AI推理和图形渲染领域有一定出货,但AI训练市场难以突破
  • 风华2号继续在信创桌面市场保持份额
  • IP业务稳健增长,GPU业务盈亏平衡但难以大幅盈利
  • Imagination架构迭代速度跟不上AI需求爆发,芯动考虑引入第二架构源

悲观情景(概率约25%):

  • 风华3号的”兼容CUDA”方案在实际大规模部署中暴露出性能和兼容性问题
  • AI训练市场被华为昇腾和寒武纪垄断,芯动只能退守桌面图形市场
  • Imagination被进一步边缘化(已被中资收购后创新乏力),架构更新缓慢
  • 缺乏外部融资,GPU研发投入受限,与头部厂商差距拉大

核心判断:芯动科技最可能的出路是成为 “国产GPU的特色化方案提供商”——在信创桌面(风华2号)、医疗影像(DICOM)、云游戏/云桌面、GIS地理信息等垂直场景建立差异化优势,而非在AI训练主战场与华为昇腾正面竞争。其”IP+GPU”的双轮驱动模式在行业淘汰赛中具有更强的抗风险能力,但也意味着更慢的增长速度。如果芯动能在未来3年完成IPO,资本实力将得到质的提升,从而有机会加速GPU产品迭代。

架构师一句话总结:芯动科技是国产GPU赛道中最”务实”也最”另类”的玩家——它用18年IP积累的利润养出了GPU,用Imagination的架构授权做出了国内图形能力最强的全功能GPU,但GPU计算架构的底层基因不完全是自己的,这决定了它在大模型训练这个”硬核战场”上的天花板。风华3号是一张漂亮的答卷,但真正的考验在于——这张答卷能否在客户的真实生产环境中拿到高分。公开信息有限,需持续跟踪风华3号的第三方评测和实际部署案例。

4.13. 芯瞳半导体

同上

定位:中国GPU赛道中最具”技术长跑”精神的”草根”玩家——从西安邮电大学实验室走出,是国内唯一一支经历”高校实验室→FF01验证→两代量产→三代规划”全链条的”纯血GPU团队”。
核心判断:芯瞳半导体是中国国产GPU赛道中一个极为特殊的存在。它不像华为昇腾背靠通信巨头,不像摩尔线程有NVIDIA全明星团队加持,也不像壁仞手握百亿级融资。它以”学术血统”和”极致功耗与多屏显示”的差异化技术在信创图形显示赛道构建了独特的护城河,但这份”技术长跑”的耐力,在商业化层面却显得力不从心。2025年营收仅5078万元,净资产-1967万元,已资不抵债 [22497]。2026年3月,纸包装龙头大胜达以5.5亿元换得22.98%股权,用”流片成功才付全款”的对赌条款为芯瞳续命,也将这家公司推向了第三次”生死关口” [22635]。芯瞳的命运,本质上是国产GPU”小而美”路线能否在资本和巨头夹击下存活的一个缩影。


4.13.1. 公司概况

芯瞳半导体技术(厦门)有限公司(Sietium)成立于2019年11月,是国内专注通用高性能GPU芯片设计的高科技企业 [22461]。公司早期注册于西安高新区,后随业务拓展在山东烟台设立主体,2024年12月将总部正式迁至厦门集美软件园三期 [22534]

芯瞳是工信部信创工委会GPU工作组 副组长单位,定位为”国产GPU自主研发领创企业” [22458]。公司以统一渲染架构为核心,面向桌面办公、嵌入式设备、工控显示、信创PC及多屏显示等场景提供国产GPU解决方案 [22441]

截至2026年4月,公司团队约150-200人,研发人员占比超过85%,硕博比例超过52% [22467]。在GPU核心技术领域拥有上百项发明专利、数十项软件著作权和多项集成电路布图设计 [22467]

芯瞳的基因里写满了”学院派”三个字。从西安邮电大学实验室到厦门集美总部,从FF01验证芯片到GB3000的规划,这支团队走的是一条”慢工出细活”的长线技术路线。但”慢”在GPU赛道是一把双刃剑——当竞争对手以”烧钱换时间”时,技术的积累深度能否弥补商业化的速度差距,是芯瞳面临的核心命题。


4.13.1.1. 创始团队和核心成员背景

芯瞳的创始团队是中国GPU领域最”古老”的团队之一,其核心成员全部来自西安邮电大学GPU研发团队,是国内最早系统性从事GPU芯片设计的学术+产业复合型团队 [22483]

角色姓名背景
创始人/董事长/CEO黄虎才西安邮电大学电子工程学院教授。2009年起带队研发GPU,是国内最早GPU研发团队的核心成员。2015年主导国内首款自主GPU芯片FF01的流片并通过沈绪榜、郝跃两位中科院院士主持的鉴定。2019年创立芯瞳半导体,推出GenBu01、GB2062、CQ2040三代GPU [22478]
联合创始人/CTO李洋西邮GPU团队核心成员,16年以上图形学与高性能计算研发经验,负责芯片架构、流片、软件生态建设,是公司公开受访的主要技术发言人 [22478]
董事/技术专家蓝善清原Intel、AMD资深架构师,GPU图形管线、渲染核心专家,为团队注入国际化GPU设计经验 [22478]
核心骨干刘周平、刘琳林、周宁等西邮GPU团队元老,分别来自海思、中兴、Mstar、RedHat、腾讯等,构建了完整GPU软硬件研发体系 [22478]

团队溯源:2009年,由陕西省属13115工程中心韩俊刚教授与留美归国技术专家发起,黄虎才参与,共同组建了国内最早专注于GPU芯片研发的技术团队。2015年推出国内第一款自主知识产权GPU芯片FF01,通过陕西省科技厅主持、沈绪榜和郝跃院士担任鉴定组主任的鉴定 [22675]。这一团队是芯瞳的”技术基因”来源。

芯瞳团队的独特之处在于”学术血统”——这在国内GPU创业公司中绝无仅有。黄虎才是教授创业,团队从实验室起步,带着”发论文、做鉴定、拿奖项”的学术惯性进入产业。这种背景的好处是技术根基扎实、不浮躁;坏处是商业化意识和市场节奏感先天不足。FF01通过院士鉴定时,景嘉微的JM5400已经量产落地——“学术认可”和”商业认可”之间的鸿沟,芯瞳至今仍在跨越。


4.13.1.2. 发展历程

时间里程碑
2009年西安邮电大学GPU研发团队组建,韩俊刚教授与留美归国专家发起,黄虎才参与 [22683]
2015年FF01芯片流片并通过鉴定,被认定为国内第一款自主知识产权GPU芯片 [22675]
2019年11月芯瞳半导体正式成立,创始团队与天使投资人卢涛共同出资 [22479]
2020年4月第一代GPU芯片GenBu01流片成功,创下”一次流片、一版封装、一次调通”记录,国内第一款统一渲染架构GPU芯片,TSMC 40nm LP工艺 [22481]
2020年8月GenBu01正式对外推出,完成与飞腾、龙芯、麒麟、统信等国产CPU/OS适配 [22525]
2021年5月第二代自研芯片GB2062架构设计完成 [22529]
2023年4月完成A轮超亿元融资,烟台市财金发展投资集团、山东省引导基金、金科君创等联合领投 [22419]
2023年6月第二代GPU产品GB2062/CQ2040正式发布,12nm工艺,1.3 TFLOPS FP32 [22454]
2023年9月与旌宇(Sparkle)达成战略合作,推出国产化首个多屏显卡产品矩阵 [22614]
2023年10月被曝裁员传闻,联合创始人李洋回应称”近期公司因业务调整确有优化,但是大规模裁员纯属谣言” [22693]
2024年12月总部正式迁入厦门集美软件园三期,成为集美招商并购基金引进的首个招商项目 [22534]
2025年2月CQ2040 GPU完成与DeepSeek模型的兼容适配 [22463]
2025年全年营收5078万元,亏损收窄至4899万元,但净资产-1967万元,资不抵债 [22497]
2026年3月大胜达(603687.SH)公告拟以5.5亿元取得芯瞳22.9831%股权,投前估值20亿元,二期2.5亿元以GB3000流片成功为条件 [22425]
2026年Q3(计划)第三代GPU GB3000计划流片,7/10nm工艺,FP32规划17-53 TFLOPS [22517]

芯瞳的发展节奏可概括为”十年磨一剑,五年出三代”。从FF01到GB3000,团队的技术迭代速度并不慢,但产品定位始终停留在”信创图形显示”层面——GenBu01对标的是GT 710/720级别的入门卡,GB2062/CQ2040对标GT 1030(2017年发布),而GB3000则试图跨越式对标RTX 4070 Ti。这种从”入门级”到”中高端”的跳跃,技术跨度极大,风险不言而喻。


4.13.1.3. 最新产品系列

芯瞳已完成两代GPU芯片的量产,第三代处于流片准备阶段。

产品代际工艺核心参数目标市场状态
GenBu01第一代TSMC 40nm LP统一渲染架构,OpenGL 4.3,1080P,VGA+HDMI双路输出,3W功耗嵌入式设备、办公电脑、工控显示2020年量产 [22525]
GB2062 / CQ2040第二代12nm CMOS1152流处理器,FP32 1.3 TFLOPS,256-bit显存位宽,最大32GB LPDDR4/DDR4,PCIe 4.0,10W,6屏原生4K输出,OpenGL 4.0/ES 3.0/Vulkan 1.3,H.264/H.265编解码信创PC、CAD/GIS、多屏显示、轻量AI推理2023年量产 [22454]
GB3000(规划)第三代7/10nm(中芯国际)FP32 17-53 TFLOPS,FP16/BF16 34-106 TFLOPS,32GB GDDR6,768GB/s带宽,PCIe 5.0 x16,OpenGL 4.6/Vulkan 1.3/DX12/光追基础,6屏4K/8K,CUDA 11.x兼容,ROCm适配图形渲染+AI推理中高端市场,对标RTX 4070 Ti/40802026年Q3计划流片 [22517]

CQ2040产品规格详解(来自官网)[22593]

  • 显卡容量:2GB/4GB/8GB LPDDR4
  • 显存频率:2133MHz(等效4266Mbps)
  • 显示接口:1路HDMI(最大4096×2160@60Hz)+ 1路VGA(1080P@60Hz)
  • 系统接口:PCIe 3.0×8
  • 像素填充率:25.6G Pixel/s,纹理填充率:51.2G Texel/s
  • 工作温度:商业级0℃至+55℃,工业级-40℃至85℃
  • AI框架:MNN、PaddlePaddle
  • CPU兼容:飞腾、龙芯、海光、兆芯、申威、X86、ARM、LoongArch、SW
  • OS兼容:麒麟、统信及多种Linux发行版

多屏产品矩阵:通过与旌宇合作,推出GB2062 4HDMI mini、GB2062 4HDMI LP、GB2062 2HDMI LP和GB2062 2HV LP四款板级产品 [22614]

架构师视角点评:CQ2040的1.3 TFLOPS FP32算力与英伟达GT 1030(2017年发布)相当,功耗仅10W——能效比其实不差,但绝对性能落后近10年 [22522]。真正的亮点在于6屏原生4K输出——这是目前国产GPU中独有的多屏能力,在交通航运、金融证券、安防监控等场景有真实需求 [22570]。GB3000如果真能实现规划的17-53 TFLOPS,那将是一个质的飞跃,但7nm流片对一支200人团队来说,难度堪比”小学生直接参加高考”。


4.13.1.4. 产品技术特点

(1)统一渲染架构:芯瞳是国内第一家采用统一渲染架构的GPU设计公司 [22460]。GenBu01的”一次流片、一版封装、一次调通”在当时国内GPU领域极为罕见,反映了团队在GPU架构层面的深厚积累 [22481]

(2)超低功耗设计:GenBu01平均功耗仅3W,CQ2040为10W,在国产GPU中功耗控制最为出色 [22454]。这在嵌入式、工控和信创终端场景中具有显著优势。

(3)多屏显示能力:CQ2040拥有6路原生独立显示通道,支持多屏4K超高清显示,4种显示模式(扩展、复制、拼接、拆分组合),这是目前国产GPU中独有的特性 [22565]

(4)芯片建模虚拟平台:团队构建了独有的芯片建模虚拟平台,可快速完成GPU软件研发和生态部署,同时快速验证芯片架构,缩短设计验证周期 [22440]

(5)全信创生态适配:已完成与60+家国内主流软硬件厂商的兼容性互认证,包括飞腾、龙芯、鲲鹏、海光、兆芯、申威等CPU,以及麒麟、统信等操作系统 [22441]。业内首家支持UE4/UE5引擎 [22478]

(6)全国产化生产工艺:CQ2040采用全国产化生产工艺,不依赖境外先进制程 [22439]

芯瞳的技术特色可以概括为”小而美”——不追求极致算力,但在功耗、多屏、生态适配等细分维度上做到了国产领先。这种策略在信创市场是合理的,但缺点是天花板明显:1.3 TFLOPS的算力无法进入AI训练和推理的主战场,多屏显示的市场规模有限。


4.13.1.5. 软件生态

芯瞳的软件生态构建以”信创适配”为核心,覆盖面广但深度有限。

维度支持情况
图形APIOpenGL 4.0/4.3、OpenGL ES 3.0、OpenCL 1.2、Vulkan 1.3(Core)[22593]
AI框架MNN、PaddlePaddle [22593]
CPU架构X86、ARM、LoongArch、SW(申威)[22530]
国产CPU飞腾、龙芯、海光、兆芯、申威、鲲鹏 [22524]
国产OS统信UOS、银河麒麟、中科方德、翼辉、腾讯OS、凝思、博云、OpenCloudOS [22524]
国产BIOS昆仑太科 [22524]
引擎支持UE4、UE5(业内首家国产GPU支持)[22478]
多媒体H.264、H.265、VP9编解码,支持FFmpeg及自适应码率调节 [22565]
大模型完成DeepSeek模型兼容适配(2025年2月)[22463]
未来规划GB3000规划支持CUDA 11.x兼容、ROCm、DX12、光追基础 [22517]

芯瞳的软件生态是典型的”信创驱动”——先做国产CPU/OS适配,再补图形API和AI框架。驱动成熟度偏低——OpenGL 4.0(而非4.6)和OpenCL 1.2(而非2.x/3.0)说明软件栈仍处于早期阶段。CUDA兼容是GB3000的规划而非现实——考虑到CUDA兼容的技术难度和法务风险,这一承诺的兑现难度极大。


4.13.1.6. 商业化与客户

芯瞳的商业化进程处于”早期小批量出货”阶段,主要市场集中在信创PC/工控/多屏显示领域。

核心客户群体(公开资料有限,需进一步核验)[22497]

  • 信创整机厂商(国产PC、服务器)
  • 工控设备厂商(交通航运、矿业能源、安防监控)
  • 行业定制化场景(金融证券、教育演示、文化数字展览)
  • 旌宇(Sparkle)显卡品牌——板级产品合作方

在手订单:截至2026年4月,在手订单约1.2亿元(主要为第二代GPU产品)[22497]

营收数据 [22497]

  • 2024年营收:约2745-2899万元(不同来源略有差异)
  • 2025年营收:约5078万元(同比增长约75-85%)
  • 2024年净利润:约-1.07亿元
  • 2025年净利润:约-4899万元(亏损收窄)
  • 2025年末净资产:-1967万元(资不抵债)

市场地位 [22478]

  • 整体GPU市场占有率:<1%
  • 信创桌面/嵌入式GPU细分份额:约3-5%,排名第4-6位(落后于景嘉微、海光、摩尔线程,与沐曦、壁仞相当)

5000万营收、1.2亿在手订单、-1967万净资产——这是芯瞳商业化最真实的底色。在信创市场,景嘉微是当之无愧的老大(2024年营收超10亿),芯瞳与龙芯、飞腾等CPU厂商的绑定深度远不及景嘉微。但芯瞳的差异化优势在于多屏显示和超低功耗——这使其在工控、交通等细分赛道有独特价值,只是这些赛道本身的规模天花板较低。


4.13.1.7. 财务、融资和估值

融资轮次时间金额主要投资方估值
天使轮2019年未公开卢涛等天使投资人
Pre-A轮约2021年未公开未公开
A轮2023年4月超亿元烟台市财金发展投资集团、山东省引导基金、金科君创领投,江诣创投、业达经发集团、龙鼎投资、正海投资、高鹏跟投 [22419]
大胜达投资2026年3月5.5亿元(0.5亿老股+5亿增资)大胜达(603687.SH)及控股股东新胜达投前20亿元,老股对应11.6亿元 [22420]

大胜达交易的几个关键条款 [22635]

  • 增资分两期:首期2.5亿元(满足协议条件),二期2.5亿元以 GB3000流片成功 为唯一条件
  • 业绩对赌:GB3000上市后两个完整会计年度累计销售收入≥5亿元
  • 2026-2028年累计净利润≥3亿元(业绩承诺)
  • 回购条款:未达标按年化8%回购,创始人黄虎才承担无限连带责任
  • 大胜达获董事会席位及重大事项一票否决权
  • 若第二代GPU未在约定期限内提交流片,或第三代GPU上市后两年累计收入未达5亿元,大胜达有权要求回购

20亿投前估值买一个年营收5000万、净资产为负的公司——这要么是”赌对了就赚100倍”的远见,要么是”传统企业跨界踩坑”的剧本。大胜达的”流片对赌”设计虽然在商业逻辑上合理(降低风险),但将一家GPU公司的命运完全押注在单次流片上,本身就是一种”赌徒式”的投资逻辑。对芯瞳而言,这笔钱是救命钱,但代价是创始人无限连带责任和几乎全盘的控制权让渡。


4.13.1.8. 核心竞争力

  1. “纯血GPU”技术基因:从2009年至今17年不间断的GPU研发积累,国内唯一经历了”高校实验室→FF01验证→两代量产→三代规划”全链条的GPU团队 [22478]

  2. 超低功耗设计能力:3W(GenBu01)/10W(CQ2040)的功耗水平在国产GPU中独树一帜,在嵌入式、工控等功耗敏感场景有天然优势 [22454]

  3. 多屏显示技术壁垒:6屏原生4K输出能力是国产GPU的独家特性,在特定行业有刚需 [22565]

  4. 信创生态深度适配:60+家国产软硬件互认证,工信部信创工委会GPU工作组副组长单位,在信创赛道有政策和生态先发优势 [22458]

  5. 芯片建模虚拟平台:独有的虚拟平台大幅缩短了GPU研发和验证周期,GenBu01”一次流片成功”证明了这一方法论的有效性 [22440]


4.13.1.9. 主要短板

  1. 产品代际严重落后:CQ2040(2023年)的1.3 TFLOPS性能仅相当于英伟达GT 1030(2017年),差距约6-7年。即使GB3000成功,与同期英伟达产品仍有2-3代差距 [22529]

  2. 财务极度脆弱:2025年营收仅5078万元,净资产为负,资不抵债,高度依赖外部融资续命 [22497]

  3. 团队规模偏小:150-200人的团队规模,在GPU赛道中属于”微型”——摩尔线程3000+人,壁仞1000+人,华为昇腾数千人。7nm芯片研发对200人团队是巨大挑战 [22478]

  4. AI能力薄弱:现有产品仅支持MNN和PaddlePaddle框架,无原生CUDA兼容,AI训练能力几乎为零,AI推理仅限于轻量级模型 [22593]

  5. 软件栈成熟度低:OpenGL 4.0(而非4.6)、OpenCL 1.2(而非2.x/3.0),驱动稳定性、性能优化深度与成熟GPU厂商差距明显。

  6. 客户集中度高、品牌力弱:信创市场被景嘉微主导,芯瞳在品牌认知度、渠道覆盖、客户关系方面处于劣势。


4.13.1.10. 供应链风险

风险维度评估
先进制程获取GB3000规划采用中芯国际7/10nm——这是目前国产GPU面临的最大”卡脖子”点。中芯国际7nm良率约50-60%,新设计首次流片良率通常<30%。单次流片成本约3000-5000万元 [22517]
代工依赖前两代产品采用TSMC 40nm和12nm,制程相对成熟,风险可控。但第三代转向中芯国际先进制程,不确定性大幅增加
显存供应GB3000规划32GB GDDR6——国内GDDR6供应主要依赖三星、SK海力士和美光,国产替代方案尚不成熟
EDA工具作为Fabless设计公司,对Synopsys/Cadence等美系EDA工具存在依赖,但在12nm及以上节点国产EDA已可部分替代
封装前两代采用传统封装,风险低。GB3000规划Chiplet异构封装(计算芯粒+显存芯粒分离),对先进封装能力有更高要求 [22517]

芯瞳的供应链风险在GB3000上集中爆发——7nm流片、GDDR6显存、Chiplet封装,每一项都是当前国产供应链的薄弱环节。一代GenBu01用40nm,二代CQ2040用12nm,三代直接跳到7nm——这种”三级跳”式的制程跃迁,在技术上是合理的(要追性能必须上先进制程),但在供应链可行性上充满不确定性。


4.13.1.11. 与 NVIDIA / AMD / Intel 的对应关系

芯瞳是目前国产GPU厂商中 最接近”纯图形GPU”定位 的公司之一,与景嘉微形成直接对标关系。但其产品性能与NVIDIA/AMD/Intel差距极大:

对比维度芯瞳英伟达AMDIntel
代表产品CQ2040 / GB3000(规划)RTX 4090 / H100RX 7900 XTX / MI300XArc A770 / Gaudi 3
最新FP32算力1.3 TFLOPS (CQ2040)~83 TFLOPS (RTX 4090)~61 TFLOPS (RX 7900 XTX)~20 TFLOPS (Arc A770)
图形APIOpenGL 4.0, Vulkan 1.3DX12 Ultimate, Vulkan 1.3, OpenGL 4.6DX12 Ultimate, Vulkan 1.3, OpenGL 4.6DX12 Ultimate, Vulkan 1.3
AI生态MNN, PaddlePaddleCUDA, TensorRT, cuDNNROCm, MIOpenoneAPI, OpenVINO
制程12nm (量产)4nm (TSMC)5nm/6nm (TSMC)6nm (TSMC)

最接近的对标:芯瞳的产品路线图本质上是对标 英伟达入门级消费显卡(GT 1030→RTX 4070 Ti),而非数据中心/AI加速卡。这一定位决定了芯瞳的天花板——它不太可能成为AI训练或大模型推理的主流选择,但在信创图形显示和工控领域有独特价值。


4.13.1.12. 未来3年判断

乐观情景(概率约30%)

  • GB3000于2026年Q3成功流片,良率达标,2027年Q2量产
  • FP32实际性能达到规划的17-25 TFLOPS(中低端),信创+工控+轻量AI推理市场打开
  • 大胜达二期2.5亿元到账,2028年营收冲击5亿+,启动IPO辅导
  • 厦门集美政府持续支持,打造”东南沿海算力港”

基准情景(概率约50%)

  • GB3000流片延期或性能缩水至15-20 TFLOPS
  • 大胜达二期资金延迟到位,2027年营收增长但未达对赌目标
  • 在信创图形赛道维持3-5%份额,与景嘉微差距拉大
  • 持续亏损,依赖地方政府补贴和产业资本续命

悲观情景(概率约20%)

  • GB3000流片失败,大胜达撤资/减值
  • 核心团队流失,业务收缩至GenBu01/CQ2040的存量市场
  • 创始人无限连带责任触发,公司控制权易手或被并购
  • 成为国产GPU淘汰赛中的”出局者”

芯瞳的未来3年,完全取决于GB3000这一战。流片成功,公司还有机会在信创图形赛道站稳脚跟,逐步向AI推理延伸;流片失败,公司将面临”技术断档+资金断裂+团队流失”的三重打击。这是一种典型的”单点依赖”风险——对一家200人团队来说,将所有赌注压在单一芯片上,本质上是在和时间赛跑。而时间,恰恰是芯瞳最稀缺的资源。


4.13.2. 核心评价总结

维度评分 (1-5)依据
芯片架构能力317年GPU架构积累,统一渲染架构成熟,但停留在中低端,高端架构设计能力待验证
芯片工程能力3GenBu01一次流片成功证明工程能力,但7nm是全新挑战
软件栈成熟度2图形API版本偏低,AI框架支持有限,驱动成熟度不足
AI训练能力1现有产品几乎无AI训练能力,GB3000规划中
AI推理能力2CQ2040可跑轻量级模型(DeepSeek适配),但1.3 TFLOPS算力严重受限
图形能力3多屏显示亮点突出,但3D渲染性能落后,API版本偏低
HPC能力1无HPC产品,无FP64能力
集群能力1无互联方案,无集群部署能力
生态能力2信创适配广但深度不足,AI生态薄弱
商业化能力2营收仅5000万,客户集中,品牌力弱
财务健康度1资不抵债,持续亏损,高度依赖外部融资
供应链安全性3前两代成熟制程安全,GB3000转向7nm风险骤增
未来成长性2高度依赖GB3000流片成功,不确定性极大

一句话总结:芯瞳半导体是中国GPU赛道中最具”技术长跑”精神的公司,但也是最接近”生死线”的公司——GB3000的流片结果将决定这家17年GPU老兵是”向上突破”还是”黯然退场”。其核心竞争力在于图形显示(尤其是多屏)和超低功耗设计,而非AI/HPC——这决定了它的天花板远低于华为昇腾、摩尔线程等”算力平台型”公司,但也在信创图形细分赛道中构建了独特的护城河。


注:芯瞳半导体的部分财务数据来源于大胜达公告及第三方分析,部分技术参数(尤其是GB3000)为规划值而非实测值,需待2026年Q3流片后进一步验证。公司公开披露的客户信息较少,具体客户名单需进一步核验。

4.14. 百度昆仑芯

同上

4.14.1. 公司概况

昆仑芯(北京)科技股份有限公司是百度孵化的AI芯片子公司,前身为百度智能芯片及架构部。2021年4月完成独立融资并正式运营,由百度芯片首席架构师欧阳剑出任CEO,首轮估值约130亿元人民币 [1]

昆仑芯是国内 最早布局AI加速领域 的芯片企业之一,技术血脉可追溯至2011年百度的FPGA AI加速器项目。2017年在Hot Chips顶会上发布自研XPU架构,2018年推出第一代昆仑AI芯片,2020年量产 [3]。2021年独立运营后进入发展快车道——2024年第三代P800量产,2025年先后点亮万卡和3万卡集群,并中标中国移动十亿级AI服务器集采项目 [5]

截至2026年,昆仑芯已完成D轮融资,投后估值约210亿元人民币(约29.7亿美元),百度持股约57.67% [7]。2026年1月以保密形式向港交所提交A1上市申请;同年5月启动科创板IPO辅导,走”A+H”双线上市路径 [9]

一句话定位:昆仑芯是 中国出货量最大的独立AI芯片公司之一,也是 唯一同时具备自研架构、万卡集群部署经验、百亿级营收潜力 的互联网大厂孵化的AI芯片企业。它不是GPU,而是专门为AI训练和推理设计的XPU——一种介于GPU通用性和ASIC专用性之间的”AI-DSA”(领域专用架构)。

4.14.2. 创始团队与核心成员

昆仑芯的核心团队呈现出 互联网工程化落地 的鲜明特征,与摩尔线程(NVIDIA系)、壁仞(华为海思/AMD系)等GPU出身的团队形成显著差异。

姓名职位关键背景
欧阳剑CEO北京航空航天大学学士、中科大硕士,2009年加入百度,历任首席芯片架构师、基础技术体系联席技术委员会主席 [11]
崔轶产品副总裁安全宝联合创始人、产品副总裁 [13]
冯景辉研发副总裁安全宝联合创始人、研发副总裁,前瑞星网络安全研发部项目经理 [13]

欧阳剑是国内最早参与异构计算与硬件加速的工程师之一,从2010年就用FPGA做AI加速架构研发 [14]。他带领团队经历了百度内部从FPGA加速器小规模部署、到2017年超万片FPGA部署,再到自研芯片的完整闭环 [14]。这种”从业务中来,到业务中去”的经验,是纯学术或纯芯片背景团队所不具备的。

🤔 团队基因决定了昆仑芯选择XPU而非GPU路线——擅长的是”AI加速系统工程化”,而非”图形渲染管线设计”。这一判断在后续产品演进中得到了充分验证。

4.14.3. 发展历程:从FPGA到XPU的十四年长征

时间里程碑事件
2011年百度启动FPGA AI加速器项目 [16]
2015年FPGA加速器部署规模突破数千片 [14]
2017年Hot Chips发布自研XPU架构;FPGA加速器部署超1万片 [3]
2018年百度AI开发者大会发布第一代昆仑AI芯片(14nm三星工艺)[17]
2020年昆仑1量产,部署于百度搜索、小度等业务 [10]
2021年3月完成独立融资,首轮估值约130亿元,CPE源峰领投,IDG、君联、元禾璞华跟投 [18]
2021年4月昆仑芯(北京)科技有限公司正式成立,欧阳剑任CEO [18]
2021年8月昆仑芯2量产,7nm制程,XPU-R架构,128 TFLOPS@FP16 [19]
2024年昆仑芯3代P800量产,XPU-P架构,345 TFLOPS@FP16;出货6.9万片 [20]
2025年2月点亮国内首个自研万卡集群(P800)[22]
2025年4月点亮3万卡集群,位于宁夏 [23]
2025年7月完成D轮融资,募资约2.83亿美元,投后估值210亿元 [7]
2025年8月中标中国移动十亿级AI服务器集采项目,三个标包排名第一 [6]
2025年11月百度世界大会发布M100(2026年上市)和M300(2027年上市)路线图 [24]
2025年12月变更为股份公司,注册资本增至4亿元 [25]
2026年1月向港交所提交A1上市申请 [9]
2026年5月启动科创板IPO上市辅导 [10]

资深架构师点评:昆仑芯的发展路径在国产芯片公司中 最具”正规军”气质——先在百度内部用FPGA跑通AI加速、再用自研芯片替代FPGA、再独立融资推向市场。这条”FPGA→自研ASIC→独立商用”的路径,与Google TPU的演进逻辑如出一辙。这也解释了为什么昆仑芯是国产AI芯片中 最早跑通万卡集群 的公司之一。

4.14.4. 产品矩阵:三代芯片,从14nm到XPU-P

4.14.4.1. 产品代际总览

代际产品系列制程架构发布时间典型算力目标场景
昆仑1K100/K20014nm (三星)XPU2018发布/2020量产64 TOPS@INT8边缘推理、云端推理
昆仑2R100/R200/RG8007nmXPU-R2021量产256 TOPS@INT8 / 128 TFLOPS@FP16云端训练+推理
昆仑3P8007nm (不确定)XPU-P2024量产345 TFLOPS@FP16大模型训练+推理
昆仑4M100未公开未见详预计2026年初未公开大规模推理优化
昆仑4M300未公开未见详预计2027年初未公开超大规模多模态训练推理

来源:[19]

4.14.4.2. 旗舰产品:昆仑芯P800

P800是昆仑芯当前的 主力交付产品,也是支撑其商业化突破的核心武器。

参数规格备注
架构自研XPU-P100%自研,面向大模型优化
FP16算力345 TFLOPS对标NVIDIA A800/A100级别 [26]
显存未公开具体容量官方宣称”比同类主流GPU高20%-50%” [29]
显存类型GDDR6非HBM,带宽512GB/s(昆仑2数据)[30]
互联芯片间200GB/s高速互联 [31]支持万卡级集群
推理性能单机8卡2437 tokens/s (DeepSeek 671B) [32]业界领先的国产推理吞吐
训练能力支持DeepSeek-V3/R1全参数训练 [33]5000卡单一集群可完成训练 [34]
特殊能力率先支持8bit推理,MoE友好 [29]对稀疏MoE模型效率优势明显
集群已点亮3万卡集群,有效训练率>98% [35]国内首个自研3万卡集群

4.14.4.3. 未来路线图:2025-2030

百度在2025年11月世界大会上公布了昆仑芯未来5年路线图,堪称国产AI芯片中 最雄心勃勃的公开规划

  • 2026年:昆仑芯M100(推理优化)+ 天池256/512超节点上市
  • 2027年:昆仑芯M300(多模态训练推理)上市;千卡级超节点
  • 2028年:天池千卡级超节点;4000卡级超节点
  • 2029年:昆仑芯N系列(下一代架构)上市
  • 2030年:百度百舸百万卡昆仑芯单集群点亮 [36]

关键信息:据财新报道,M系列芯片将 基于国产供应链打造[37]。这意味着昆仑芯正在从”商业最优”(台积电先进制程)转向”政企估值最优”(国产供应链可控),这是应对地缘政治风险的防御性布局。

4.14.5. 技术架构深度解析:XPU是什么?

4.14.5.1. XPU设计哲学:不是GPU,是”任务调度型AI加速器”

昆仑芯的XPU架构在2017年Hot Chips首次公开,其设计哲学与GPU有根本性差异:

  • GPU:设计哲学是”大规模并行”(SIMT),数千个CUDA核心同时执行相同指令,适合图形渲染和矩阵乘法的规则计算。
  • XPU:设计哲学是”异构任务调度”,针对AI推理中大量存在的不规则计算(稀疏矩阵、动态形状张量、条件分支)设计专用调度单元 [38]

专利数据显示,昆仑芯在G06F9/50(任务调度/资源分配)领域的专利申请量最大(64件),贯穿2019-2025年,这恰恰是XPU区别于GPU的核心差异点 [38]

4.14.5.2. 架构演进三代

架构代际核心特点
XPU昆仑1基础异构计算,SDNN神经网络引擎+Cluster集群计算单元
XPU-R昆仑2SDNN+Cluster融合架构,通用性和性能显著提升,支持GDDR6
XPU-P昆仑3/P800100%自研,为大模型而设计,MoE架构友好,支持8bit推理

4.14.5.3. 芯片内部结构(昆仑1/2代)

根据公开信息,昆仑芯片内部包含:

  • 两个计算单元,每个单元配备专用8GB HBM(昆仑1)或GDDR6(昆仑2)+ 16MB片上共享SRAM
  • 两个单元之间通过256GB/s带宽的NoC互联
  • 软件定义神经网络引擎(XPU-SDNN)和XPU Cluster两个计算组件
  • SDNN针对大张量运算优化,Cluster处理通用计算 [39]

关键洞察:昆仑芯的架构设计非常务实——它不追求GPU的”全能”,而是聚焦AI负载中最耗时的算子(矩阵乘、卷积、注意力机制),通过专用硬件单元和智能调度在AI场景下实现比同代GPU更高的能效比。这种”AI-DSA”(AI领域专用架构)路线在推理场景尤为有效,但在训练灵活性和通用性上不如真正的GPGPU。

4.14.6. 软件生态:飞桨深度绑定 + “类CUDA”兼容

4.14.6.1. 软件栈构成

昆仑芯的软件栈包括以下核心组件:

组件全称功能
XTDKXPU Tool Development KitC/C++编译器,支持数据并行编程模型,允许指针操作和内联汇编 [41]
XTCLXPU Tensor Compilation Library图编译引擎,AOT/JIT张量编译器,支持子图接入和全图编译 [42]
XDNNXPU Deep Neural Network完全优化的算子库,包含BLAS等高级数学计算 [41]
RuntimeXPU Runtime运行时环境,设备管理,算子实现 [43]
SDK全栈软件开发套件从底层驱动到上层模型转换的全栈工具 [44]

4.14.6.2. 框架支持

框架适配程度备注
飞桨PaddlePaddle⭐⭐⭐⭐⭐ 深度集成自2018年适配,III级兼容认证,一行代码切换设备 [45]
PyTorch⭐⭐⭐⭐ 良好通过vLLM-Kunlun实现CUDA后端伪装,算子注册机制 [46]
TensorFlow⭐⭐⭐ 支持通过XTCL子图接入
ONNX⭐⭐⭐ 支持标准模型格式支持

4.14.6.3. “类CUDA生态”:兼容而非原生

昆仑芯在2025年中国移动集采中,以”类CUDA生态”标段中标。这一定位的含义是:

  • 不是原生CUDA:昆仑芯不使用CUDA,而是通过软件层实现CUDA-like的编程接口
  • PyTorch兼容:通过将昆仑算子注册到PyTorch算子体系并标记为CUDA后端,实现”像用GPU一样用昆仑芯” [46]
  • 降低迁移成本:在某些场景下,仅需修改一行代码即可从GPU切换到XPU [45]

资深架构师判断:昆仑芯的”类CUDA”策略是务实的——它不追求100%的CUDA二进制兼容(这在技术上几乎不可能,且存在法律风险),而是通过 框架层的适配 让开发者几乎无感切换。但这种策略的局限在于:严重依赖飞桨/PyTorch框架的持续适配,一旦离开这些框架,裸机编程或使用其他框架的开发者将面临巨大迁移成本。

4.14.6.4. 生态短板

昆仑芯软件生态的最大短板在于 独立性和开放性不足

  • 与飞桨的深度绑定既是优势也是桎梏——百度体系外的开发者(如使用PyTorch的阿里系、字节系)适配成本更高
  • 社区活跃度和工具链丰富度远不及CUDA生态
  • 一位AI开发者坦言:“我们选择技术栈时,除了看性能,更看重社区的活跃度、工具链的丰富程度和遇到问题时能否快速找到解决方案” [47]

4.14.7. 商业化与客户:从”百度内循环”到”外部客户过半”

4.14.7.1. 营收与出货量

昆仑芯尚未上市,财务数据不透明,但综合多家媒体和券商研报:

指标2024年2025年(预测)2026年(预测)
营收~20亿元~35-50亿元~65-83亿元
净利润-2亿元(亏损)接近盈亏平衡未公开
出货量6.9万片~13万片未公开
外部客户占比~40%>50%未公开

来源:[48]

关键数据:根据IDC发布的2024年中国加速计算芯片出货报告,昆仑芯以6.9万片出货量排名国产第三(仅次于华为昇腾),在中国区所有厂商中位列第三(英伟达190万片第一,华为昇腾64万片第二)[54]

4.14.7.2. 客户版图

昆仑芯的客户已从百度内部扩展至多个关键行业:

行业典型客户状态
互联网百度(搜索、小度、文心一言)、vivo已有部署
运营商中国移动(十亿级集采,三个标包第一)2025年中标
金融招商银行(AI芯片项目,Qwen系列性能领先)已落地
能源电力国家电网、南方电网进入采购体系
制造业中国钢研已有部署
教育科研同济大学、北京大学规模化部署
汽车吉利汽车未明确

来源:[56]

4.14.7.3. 服务器合作伙伴

昆仑芯通过服务器OEM/ODM合作伙伴交付:

  • 河南昆仑技术(在中国移动集采中多次中标,是昆仑芯的重要服务器集成商)[61]
  • 新华三(H3C):推出昆仑芯服务器 [31]
  • 浪潮(Inspur):推出昆仑芯服务器 [31]
  • 百度智能云:直接提供昆仑芯云服务器

4.14.8. 财务、融资与估值

4.14.8.1. 融资历程

轮次时间金额估值核心投资方
独立融资2021年3月未公开~130亿元CPE源峰领投,IDG、君联、元禾璞华跟投
A轮-C轮2021-2024未公开持续增长比亚迪、中信建投资本、君联资本、北京AI产业投资基金等
C+轮2024年未公开未公开未公开
D轮2025年7月2.83亿美元(约21亿元)210亿元国新高层次人才基金、中移和创、比亚迪、中金观博等

来源:[63]

4.14.8.2. 估值分析:为什么只有210亿元?

昆仑芯2025年D轮估值210亿元,与同期上市的寒武纪(A股市值超7000亿)、摩尔线程(上市后市值一度超2700亿)、沐曦(上市后市值一度超2700亿)相比,存在显著折价 [66]

原因分析:

  1. 百度子公司的”身份折价”:尽管外部客户已超50%,但市场仍将其视为”百度系”,担心关联交易和独立性
  2. 非GPU路线的”天花板焦虑”:XPU是AI-DSA而非通用GPU,市场担心其TAM(总可寻址市场)小于GPU
  3. 未上市流动性折价:私募市场估值天然低于公开市场
  4. 营收体量虽大但增速待验证:2024年20亿营收在国产AI芯片中排第一梯队,但能否持续高增长仍需观察

4.14.9. 核心竞争力

4.14.9.1. 第一性优势:14年业务场景淬炼

昆仑芯是 国内唯一 经历了互联网大规模核心算法考验的云端AI芯片——在百度搜索引擎、小度等业务中部署超过2万片 [68]。这种”自产自用”的闭环验证,是其他国产芯片公司无法复制的。

4.14.9.2. XPU架构的差异化优势

  • 推理效率:MoE架构友好,8bit推理支持,显存规格优于同类产品20-50% [29]
  • 任务调度:针对AI推理中不规则计算的专用调度单元,效率优于GPU [38]
  • 能效比:昆仑2代INT8算力256 TOPS,功耗仅120W,能效比优秀 [30]

4.14.9.3. 集群工程能力:3万卡点亮

2025年上半年,昆仑芯先后点亮万卡和3万卡集群,有效训练率>98% [35]。这是国内首个自研3万卡集群——不是简单的硬件堆叠,而是涉及网络拓扑、散热、容错、调度等全栈工程能力。

4.14.9.4. 商业化落地速度最快

在国产AI芯片创业公司中,昆仑芯的营收规模、客户质量和订单确定性均处于领先地位:

  • 2024年营收约20亿元,领先同行
  • 中国移动十亿级订单,运营商市场壁垒极高
  • 招商银行、国家电网等央国企客户,信誉背书价值巨大

4.14.10. 主要短板

4.14.10.1. 不是GPU——图形能力为零

昆仑芯从设计之初就定位为AI加速器,不具备任何图形渲染能力。在需要GPU图形+AI推理的混合场景(如云游戏、数字孪生、AI辅助设计)中完全无法胜任。

4.14.10.2. 软件生态的”百度依赖症”

尽管已适配PyTorch,但昆仑芯的软件栈 最优体验仅限于飞桨生态。对于非百度体系的开发者,工具链完善度、社区支持、文档质量与CUDA生态差距巨大。

4.14.10.3. 训练能力的”天花板”

昆仑芯的设计哲学偏向推理优化(异构调度),在大规模训练场景中,其通用性和灵活性不如真正的GPGPU架构。虽然P800支持DeepSeek全参数训练,但在更复杂的混合精度训练、动态图模式等场景下的表现,公开信息有限。

4.14.10.4. 独立性的”身份困境”

昆仑芯最大的商业悖论:它需要百度作为”超级客户”来验证产品和贡献营收,但同时百度子公司的身份限制了其他互联网大厂(如阿里、字节、腾讯)的采购意愿 [56]。任何竞争对手都不会愿意把自己的核心算力基础设施建立在”对手的芯片”上。

4.14.10.5. 专利与知识产权边界

据企业专利观察报道,百度仍持有部分未完成转移的专利,两家公司之间的知识产权边界是否清晰,是上市审查的潜在风险点 [69]。2022年专利申请量仅46件,为整个专利库最低谷,这一年的研发投入压缩是否影响2024-2025年产品竞争力,也值得关注 [69]

4.14.11. 供应链风险

4.14.11.1. 代工依赖与转向

  • 昆仑1:三星14nm + I-Cube封装,供应链可控性较好 [70]
  • 昆仑2:7nm制程,代工厂未公开披露,大概率台积电 [71]
  • 昆仑3/P800:制程工艺未公开,但大概率仍依赖台积电先进制程
  • M系列:据财新报道,将基于国产供应链打造 [37]

4.14.11.2. 关键风险点

风险维度具体风险影响程度
先进制程7nm以下代工依赖台积电,受美国出口管制影响🔴高
HBM昆仑2/3使用GDDR6而非HBM,带宽受限;若未来需要HBM则受限于SK海力士/三星供应🟡中
EDA工具前端设计依赖Synopsys/Cadence,受管制风险🟡中
国产供应链切换M系列转向国产供应链,可能面临良率低、性能下降的风险🟡中
博通合作后端物理设计可能依赖博通,地缘政治风险🟢低(可替代)

4.14.11.3. 与博通的关系

昆仑芯与博通的合作模式,根据公开信息推测为:博通协助后端物理设计(Physical Design)和部分IP授权,而非像Google TPU那样的深度定制合作 [72]。这种模式在国产芯片公司中较为常见(芯原股份也提供类似服务),风险相对可控,因为后端设计服务有多个替代供应商(芯原、世芯、GUC等)。

4.14.12. 与NVIDIA/AMD/Intel的对应关系

维度昆仑芯NVIDIAAMDIntel
产品定位AI-DSA (XPU)通用GPU (CUDA)通用GPU (ROCm)AI加速器 (Gaudi)
最接近竞品A800/A100(性能)、H20(市场定位)Gaudi 3
架构哲学异构任务调度SIMT大规模并行SIMT大规模并行矩阵乘法+通用计算
图形能力0完整完整有限
编程模型XPU C/C++CUDA C/C++HIP C/C++oneAPI
AI框架优先飞桨 > PyTorchCUDA (PyTorch/TF)ROCm (PyTorch)oneAPI
集群规模3万卡10万卡+数千卡级数千卡级

昆仑芯与NVIDIA的对应关系不应简单地理解为”P800对标A800”。更准确地说,昆仑芯P800在特定AI推理场景(尤其是MoE大模型推理)中可以达到甚至超越A800的性能/成本比,但在通用计算、图形渲染、科学计算、CUDA生态兼容性等方面差距明显。它更像是Google TPU v5的中国版本——一个高度优化的AI领域专用架构。

4.14.13. 未来3年判断(2026-2028)

4.14.13.1. 核心判断

维度判断置信度
上市2026年完成港股IPO,2027年完成科创板上市
营收2026年达到65-83亿元,2027年突破100亿元中高
技术路线M系列转向国产供应链,XPU架构持续迭代
市场地位稳固国产AI芯片前三(与华为昇腾、寒武纪竞争)
外部客户外部客户占比超过70%,百度依赖度持续降低中高
GPU化3年内不会推出图形GPU产品

4.14.13.2. 核心风险

  1. 国产供应链切换风险:M系列转向国产供应链可能导致性能回退,影响外部客户信心
  2. 飞桨生态天花板:如果百度飞桨在大模型框架竞争中落后于PyTorch,将拖累昆仑芯的生态价值
  3. 百度分拆不确定性:百度持股57.67%,关联交易比例、治理结构等问题可能影响IPO估值和后续运营
  4. 竞争加剧:华为昇腾(CANN生态)、寒武纪(思元系列)、海光DCU(x86兼容)均在快速迭代

4.14.13.3. 最可能的发展路径

昆仑芯最可能的发展路径是:成为”中国版Google TPU + 独立第三方AI芯片公司”的混合体。一方面继续深度服务百度内部AI算力需求(类似TPU对Google的角色),另一方面通过上市和外部客户拓展,逐步建立独立品牌——最终形成”百度核心客户+运营商+金融+能源”的多元客户结构。M系列芯片的国产供应链切换,将是决定其能否获得”信创”政策红利的关键一步。

4.14.14. 核心数据速查表

维度数据
成立时间2021年4月(前身2011年)
总部北京
CEO欧阳剑
控股股东百度(中国)有限公司,约57.67%
技术路线自研XPU架构(AI-DSA),非GPU
代表产品P800(第三代)、K100/K200(第一代)、R200/RG800(第二代)
最新制程7nm(P800),M系列转向国产供应链
2024年营收~20亿元
2024年出货量6.9万片(国产第三)
2025年预计营收35-50亿元
最新估值210亿元(2025年7月D轮)
万卡集群已点亮3万卡集群(国内首个自研)
上市状态2026年1月提交港股A1,2026年5月启动科创板辅导
主要客户百度、中国移动、招商银行、国家电网、南方电网
核心优势14年业务验证、XPU差异化架构、3万卡集群能力、最快商业化
核心短板非GPU、飞桨依赖、百度标签、训练能力待验证

4.15. 瀚博半导体

同上

架构师注:由于“Previous Knowledge”已对瀚博半导体进行了极为详尽的深度分析(涵盖公司概况、创始团队、发展历程、产品系列、技术特点、软件生态、商业化、财务融资、核心竞争力、主要短板、供应链风险、与NVIDIA/AMD/Intel对应关系、未来3年判断等13个模块),以下内容聚焦于 新来源中补充的关键信息对已有分析的批判性更新,避免重复已有内容。需完整了解瀚博半导体请参照前述深度分析。

4.15.1. 关键信息更新与补充

4.15.1.1. 公司概况补充

根据最新辅导备案报告,瀚博半导体的法定代表人为杨勤富,注册资本5.43亿元,研发团队超500人,研发人员占比90%以上,硕士及以上学历超80%,核心成员平均从业超18年 [23296]。公司注册地在上海,在北京、深圳和多伦多设有研发分部 [23081]

4.15.1.2. 创始团队补充

钱军的教育背景为上海交通大学本科、美国爱荷华大学计算机工程硕士 [23186]。其职业生涯始于思科(12年),2009年加入AMD担任Senior Director,曾带队设计量产了业界第一颗7nm图形处理器和第一颗7nm GPGPU架构的AI芯片,拥有40多款芯片设计和量产经验 [23199]

张磊本科毕业于加拿大滑铁卢大学电子工程系,硕士毕业于多伦多大学计算机工程专业。2004年加入ATI(后被AMD收购),2013年成为AMD Fellow,全面负责AI加速、深度学习、视频编解码和视频处理领域 [23189]

架构师评注:钱军+张磊的组合在国产GPU赛道中极为稀缺。尤其是张磊的AMD Fellow身份——这是AMD技术序列的最高荣誉,在国产GPU创业公司中凤毛麟角。这意味着瀚博在芯片架构层面的技术判断力有顶级人才保障。但需要指出的是,张磊的专长集中在 视频编解码和图像处理,而非大规模AI训练集群和互联架构——这可能部分解释了瀚博为何选择从AI推理而非训练切入。

4.15.1.3. 发展历程关键节点补充

时间关键事件
2018年12月20日瀚博半导体正式成立 [23329]
2020年5月首颗半定制7nm芯片交付客户流片 [23331]
2021年6月SV102芯片测试成功,8分钟全部点亮,40小时内完成所有模块基础测试 [23113]
2021年7月发布首款服务器级AI推理芯片SV102及通用加速卡VA1 [23118]
2021年12月完成B1/B2轮共16亿元融资,引入阿里巴巴作为战略投资方 [23282]
2022年9月发布统一计算架构VUCA、载天VA10/VE1,预览SG100 [23088]
2023年2月SG100 GPU芯片回片 [23089]
2023年4月完成第二代7nm全功能GPU芯片系列产品量产 [23089]
2023年7月正式发布SG100及6款新品 [23134]
2025年4月完成C++轮融资,引入盐城中韩产业园等地方国资 [23227]
2025年7月11日签署IPO辅导协议 [23466]
2025年7月18日正式进入辅导期 [23466]
2025年10月完成Pre-IPO轮融资(国泰君安创新投资、易方达、临港数科、经纬创投等) [23073]
2025年12月30日中信证券提交辅导工作完成报告,标志公司具备上市公司治理结构 [23304]

架构师评注:从2025年7月签署辅导协议到12月完成辅导,仅用5个月——这一速度在国产GPU厂商中相当快。中信证券的辅导完成报告认为瀚博”具备成为上市公司应有的公司治理结构、会计基础工作、内部控制制度”,这意味着瀚博在2026年上半年登陆科创板的概率较高。

4.15.1.4. 产品参数补充

SV102芯片关键参数 [23109]

  • INT8峰值算力:200 TOPS
  • 支持FP16/BF16数据类型
  • 视频解码:64+路1080p(H.264、H.265、AVS2)
  • 最大功耗:75W
  • 接口:PCIe Gen4 x16
  • 散热:被动散热

载天VA10加速卡 [23131]

  • INT8峰值算力:400 TOPS
  • 功耗:150W
  • 推理性能:同功耗主流GPU的2倍以上
  • 延时:仅为主流GPU的6%
  • 在低延时场景(低于4ms的YoloV3检测)下,推理性能可达主流GPU的3倍以上

载天VE1边缘加速卡 [23377]

  • INT8峰值算力:100 TOPS
  • 功耗:40-65W
  • 支持60路1080P视频实时解码

VA1L大模型加速卡 [23345]

  • INT8:200 TOPS
  • FP16:72 TFLOPS
  • 支持ChatGPT、LLaMA、Stable Diffusion等主流AIGC模型

AIGC大模型一体机 [23338]

  • 8张VA1L加速卡
  • 512GB显存
  • 支持1750亿参数大模型部署
  • 瀚博宣称为”目前针对AI大语言模型最低价格的大模型一体机方案”

VA12高性能生成式AI加速卡 [23345]

  • 250W板卡
  • INT8:512 TOPS
  • VA1/VA10的升级版

4.15.1.5. 软件生态补充

VastStream软件平台关键特性 [23202]

  • 支持TensorFlow、PyTorch、Caffe2等框架及ONNX格式
  • 提供VACL推理接口
  • 提供FFmpeg VAAPI插件
  • 提供系统管理三大工具
  • 基础软件栈特性:统一接口、灵活调度、通用AI计算、多路高效视频转码+AI增强、易编程快迁移、工具链完备

关于CUDA兼容性问题,新来源显示瀚博 不直接兼容CUDA,而是走自研VastStream路线 [23207]。这与摩尔线程的MUSA(类CUDA兼容)、沐曦的MXMACA等路线有明显区别。

架构师评注:瀚博的软件栈策略是”场景导向,而非CUDA导向”。早期SV100是DSA架构,天然不需要CUDA兼容——推理场景的模型经过编译优化后直接在VastStream上运行即可。但SG100作为全功能GPU推向市场后,缺乏CUDA兼容性在通用计算领域将成为显著障碍。不过钱军对图形API生态的判断是清醒的:图形渲染有标准API(DX/OpenGL/Vulkan),不像AI计算那样被CUDA深度绑定,先做好标准API兼容、再逐步完善AI软件栈的路径,在资源有限的情况下是务实的 [23149]

4.15.1.6. 商业化与客户补充

  • 快手:A轮领投方,同时自研SL200智能视频处理芯片,与瀚博形成”自研+投资”双轨策略 [23294]
  • 阿里巴巴:B轮战略投资方,被解读为强化通义千问大模型算力自主可控 [23227]
  • 服务器适配:联想、浪潮、新华三、超微 [23111]
  • 操作系统适配:CentOS、Ubuntu、红帽、中标麒麟、银河麒麟 [23111]

关于客户采购的质疑:知乎匿名用户曾评论”某手投了瀚博却不采购,十分蹊跷” [23302]——这一说法 未经证实,但反映出市场对瀚博商业化落地的关注。需待IPO招股书披露后核验。

4.15.1.7. 融资与估值补充

轮次时间金额关键投资方
A轮2020年约5000万美元快手战投领投,红点创投、五源资本等
A+轮2021年4月5亿元中网投、经纬中国联合领投
B1/B2轮2021年12月16亿元阿里巴巴、人保资本、经纬创投、五源资本联合领投
C轮2024年未披露阿里巴巴、经纬创投、红点中国、真格基金、五源资本、耀途资本、未来资产 [23293]
C++轮2025年4月未披露盐城中韩产业园、灏瀚芯图、青岛赛富皓海等地方国资 [23227]
Pre-IPO轮2025年10月数亿元国泰君安创新投资、易方达、临港数科、经纬创投 [23073]

累计融资:6轮超25亿元 [23227]

估值:2024年100亿元,2025年105亿元(胡润全球独角兽榜,排名第898位)[23228]

股权结构:钱军(直接持有+通过KJQ LP间接持有)与张磊(通过VASTAI Holding Company间接持有),通过17家员工持股平台合计控制公司42.1465%的表决权,二人签署一致行动协议,为公司共同实际控制人。无直接持股30%以上的单独股东主体,无控股股东 [23235]

完整股东阵容:中国互联网投资基金、快手、阿里巴巴、经纬中国、招商局资本、五源资本、真格基金、耀途资本、联发科、基石资本、天狼星资本、红点创投、赛富投资基金、人保资本、海通开元、慕华科创、盐城中韩产业园、灏瀚芯图、青岛赛富皓海等 [23285]

架构师评注:瀚博的股东阵容堪称国产GPU赛道中最”豪华”的之一——阿里+快手+联发科三大产业资本同时加持,在国产GPU公司中”独此一家”。联发科的入股尤其值得关注:联发科本身在手机/平板SoC中集成了ARM Mali GPU,但并不直接参与数据中心GPU市场。联发科投资瀚博,可能意味着其看到了云端GPU与其边缘/终端芯片生态的协同机会(如云游戏场景),也可能纯粹是财务投资。无论如何,三大产业资本的同时背书,为瀚博的IPO定价提供了有力支撑。但估值105亿元对应的市销率(P/S)——如果年营收不到10亿元,则P/S超过10倍,在半导体行业属于偏高估值,需要强劲增长来支撑。

4.15.1.8. 未来规划

CTO张磊在公开场合透露了瀚博未来五年的规划 [23283]

  1. 云端渲染:继续加大云手机、云游戏、云桌面、云渲染的快速商业化落地
  2. 大模型推理:着重DeepSeek和阿里Qwen类模型的推理适配和优化
  3. 边缘端智能计算:拓展边缘AI市场

架构师评注:张磊”大模型收敛了”的表述值得玩味——这暗示瀚博判断大模型预训练(Scaling Law驱动)的军备竞赛可能进入平台期,而推理需求将接棒成为主力增长点。这与瀚博”不做训练、专注推理和渲染”的战略定位高度一致,也意味着瀚博判断自身在训练侧”不参与”的损失在变小。

4.15.1.9. 供应链风险补充

瀚博两代芯片(SV100系列、SG100)均采用7nm制程,代工厂推测为台积电 [23089]。2024年11月台积电暂停向中国大陆供应7nm及更先进制程的AI/GPU芯片后,瀚博面临与所有国产7nm GPU厂商相同的供应链风险 [23241]

4.15.1.10. 知乎匿名评论的批判性分析

有知乎匿名用户评论称”跟瀚博的聊过,感觉瀚博的创始人不是太懂新技术也不太清楚英伟达的玩法,更喜欢用AMD里的老技术” [23302]。这一评论 未经证实,来源匿名,权威性极低,但从中可以提取一个值得关注的角度:钱军和张磊的GPU经验主要来自AMD体系,这既是瀚博的基因优势(7nm量产经验),也可能形成某种”路径依赖”——在AI训练集群、互联架构等NVIDIA主导的领域,团队经验相对薄弱。这与瀚博选择”不做训练、专注推理和渲染”的战略方向一致,与其说是”不懂新技术”,不如说是基于自身基因的务实选择。

4.15.1.11. 与前述分析的关键差异点

维度已有分析新来源补充/修正
研发人员占比80%以上90%以上 [23296]
硕士及以上学历占比70%+80%+ [23296]
注册资本5.43亿元确认 [23296]
法定代表人未提及杨勤富 [23296]
辅导完成时间2025年12月2025年12月30日提交报告 [23304]
辅导期融资未提及第一期辅导期间完成一轮新融资,部分股东股份转让 [23466]
募投项目未提及尚未最终确定,辅导机构正协助规划 [23466]
未来五年规划未详细提及云端渲染商业化、大模型推理适配(DeepSeek/Qwen)、边缘AI [23283]

4.15.2. 核心判断更新

综合新来源信息,对瀚博半导体的核心判断维持不变,部分增强:

  1. IPO确定性增强:2025年12月已完成辅导,中信证券出具肯定意见,2026年上半年登陆科创板的概率较高 [23304]

  2. “不做训练”路线更加清晰:张磊”大模型收敛了”的判断和未来五年规划中”着重推理适配和优化”的表述,进一步确认瀚博不参与大模型预训练竞争的战略定位 [23290]

  3. 股东阵容确认:阿里+快手+联发科三大产业资本同时加持,辅以中网投等国家队,形成产业协同+政策支持+市场验证的三重背书 [23285]

  4. 商业化能力仍待验证:两代产品已量产,但具体客户数量和出货量公开资料有限,知乎匿名评论虽不具权威性,但反映了市场对商业化实质的关注 [23302]

  5. 供应链风险依旧:7nm断供背景下,瀚博的现有产品线和下一代产品研发均面临制程供应不确定性 [23249]

关于营收/财务数据、客户具体出货量、SG100完整技术规格等关键信息,公开资料有限,需待瀚博半导体IPO招股书披露后进一步核验。

4.16. 象帝先

同上

定位:中国GPU赛道中”履历最豪华、命最硬”的传奇玩家——创始人唐志敏是龙芯一号/二号首席科学家、海光信息缔造者,堪称中国芯片界”活化石”级人物。公司从估值150亿的”独角兽”到2024年8月濒临解散、400人团队原地失业,再到2025年2月靠南孚电池母公司安孚科技”续命”复活,2026年5月再获智路资本领投、签约中信建投冲刺IPO——这出”濒死复生”的剧本,在中国半导体创业史上绝无仅有。
核心判断:象帝先是国产GPU赛道中最具”戏剧性张力”的公司。它的核心竞争力在于唐志敏本人的行业号召力和团队的双重CPU+GPU基因,但技术路线选择——基于Imagination Technologies IP授权而非全自研架构——使其在”自主可控”叙事上存在根本性张力。伏羲A0作为全球首款量产IMG DXD架构GPU,160 TFLOPS FP32的纸面性能令人瞩目,但Imagination移动GPU基因的性能天花板和驱动生态薄弱,是两道绕不过去的坎。2026年冲刺IPO是象帝先的”终局考验”——成了,它是国产GPU”不死鸟”;败了,可能是中国GPU泡沫最惨烈的注脚。


4.16.1. 公司概况

象帝先计算技术(重庆)有限公司(Xiangdixian Computing Technology)成立于2020年9月29日,是一家高性能通用/专用处理器芯片设计企业,总部注册于重庆,已在北京、上海、成都、苏州、合肥、深圳六地布局研发中心 [23508]。公司定位为”国产通用GPU自主研发领创企业”,方向覆盖桌面、工作站、服务器、边缘计算等场景 [23505]

“象帝先”之名出自《道德经》“吾不知谁之子,象帝之先”——取”在天地之先”之意,寓意在中国GPU产业中做”第一个” [23683]。公司已取得国家发明专利授权百余件 [23508]

截至2025年,公司团队经历大幅收缩后维持核心力量约百余人(2024年8月危机前超400人),核心成员来自海光、NVIDIA、AMD等企业,平均从业经验超15年 [23500]

象帝先的底色是”传奇”与”戏剧性”并存。唐志敏的履历放在中国芯片圈几乎是”开挂”级别——龙芯一号二号首席科学家、海光信息创始人兼总裁、中科院计算所主任研究员。这个级别的创始人带着”CPU老兵做GPU”的故事出来融资,估值150亿并不令人意外。但GPU终归不是靠一个人就能做成的生意——后面的故事,比任何一部商战剧都精彩。


4.16.1.1. 创始团队和核心成员背景

象帝先的创始团队核心是唐志敏——中国芯片产业少有的”双料冠军”。

角色姓名背景
创始人/董事长/CEO唐志敏中科院计算所工学博士,南京大学理学学士。中科院计算所主任研究员、博士生导师。2000-2006年任中科院知识创新工程”龙芯CPU”重大项目负责人,龙芯一号、二号首席科学家,被业内称为”龙芯之父”之一 [23550]。2016-2019年兼任海光信息技术有限公司总裁,主导海光CPU研发并推动AMD x86技术授权谈判,为海光成为信创CPU龙头奠定关键基础 [23550]。2020年从海光退出后创立象帝先。2023年11月起兼任深圳理工大学算力微电子学院院长 [23559]。2024年因公司资金危机与公司一同被列为被执行人,被限制消费 [23632]
常务副总裁张珩代表公司对外发声的主要高管,负责市场与生态合作 [23669]
核心团队来自海光、NVIDIA、AMD等象帝先官方称核心成员平均从业经验超10年,是国内少数同时具备CPU与GPU双研发经验的团队 [23668]

唐志敏的行业地位:在中国芯片界,唐志敏属于”第一代”人物。2001年,胡伟武向师兄唐志敏立下军令状”一两年之内不把通用操作系统引导成功,提头来见”,由此开启了龙芯项目 [23552]。2014年中科院参设海光信息,2015年唐志敏上任负责人,随后主导了海光与AMD的x86技术授权合作——这一决策使海光成为今天信创CPU市场的核心玩家 [23551]。2019年海光上市前唐志敏退出,2020年以55岁之龄”再创业”做GPU [23554]

唐志敏的履历在国内GPU创业公司创始人中独一档。龙芯和海光两个项目的成功,证明了他不仅懂技术,更懂”怎么做成一颗芯片”。但问题在于,55岁的二次创业,他面对的是一个比CPU更卷、更烧钱、更依赖生态的赛道。唐志敏的”老兵光环”能吸引资本,但GPU的残酷之处在于——它不相信资历,只相信产品。


4.16.1.2. 发展历程

时间里程碑
2020年9月象帝先正式成立,获重庆两江产业发展集团等国资天使轮投资 [23551]
2021年1月重庆、北京、成都、上海、苏州五地全面运作 [23513]
2021年3月第一款GPU芯片项目PANGU A0(天钧一号)立项 [23712]
2022年6月PANGU A0流片,比原计划提前5个月 [23513]
2022年9月”天钧一号”GPU在重庆两江新区正式发布,300+研发人员历时15个月完成 [23506]
2023年1月天钧一号通过工信部CSIP认证性能测试,性能达NVIDIA GTX 1660水平 [23721]
2023年3月正式加入国家信创工委会 [23885]
2023年4月完成A轮超亿元融资 [23513]
2023年6月天钧一号芯片量产 [23884]
2023年9月天钧二号GPU发布,面向工控、嵌入式、边缘计算 [23520]
2023年累计完成A轮、A+轮、B轮等多轮融资,共14个投资方参与 [23514]
2024年4月入选”重庆市2024年度独角兽企业”,估值高达21.69亿美元(约150亿人民币)[23513]
2024年5月披露获芯能创投B+轮融资 [23513]
2024年8月传闻B轮对赌(满5亿元)失败,遭股东起诉,账户冻结。8月30日全员会议宣布解散,约400人被裁 [23517]
2024年9月公司发布澄清公告,否认解散清算,承认”人员优化”,同时与首都在线有约1881万元诉讼未结 [23669]
2024年12月26日宣布”融资启新,韧者终迎芯片曙光”,新一轮融资有重大进展 [23521]
2025年2月完成数亿元战略融资,引入A股上市公司安孚科技(603031,南孚电池母公司)及多家创投机构 [23515]
2025年2月天钧一号完成DeepSeek模型兼容适配 [23535]
2025年8月安孚科技互动平台披露:伏羲架构芯片已于6月回片点亮,功能与性能达预期 [23503]
2025年9月安孚科技披露:伏羲架构5nm GPU完成流片验证,160 TFLOPS FP32,12GB HBM2,已适配《黑神话:悟空》[23571]
2025年11月ICCAD-Expo 2025展出伏羲A0显卡,全球唯一量产IMG DXD架构产品,支持光追 [23579]
2026年4月签约中信建投证券,全面启动IPO筹备 [23692]
2026年5月8日新一轮融资首批签约,智路资本、钧鑫投资联合领投,广州粤港基金等跟投 [23689]
2026年5月明确年内完成股份制改造,加速IPO [23687]

象帝先的发展史,是中国GPU创业浪潮”冰与火之歌”的缩影。从2020年成立到2024年4月估值150亿,只用了不到4年。但150亿估值到濒临解散,只用了4个月。对赌失败、股东诉讼、账户冻结、员工欠薪——这是一个教科书级别的”半导体创业风险案例”。而2025年2月安孚科技入局后的”复活”,又让这个故事多了一层”白马骑士”的戏剧性。纵观全程,象帝先的技术节奏其实不慢——15个月完成天钧一号流片,两年内推出伏羲架构——但商业化的节奏完全跟不上烧钱的速度,这是致命伤。


4.16.1.3. 最新产品系列

象帝先已完成三代产品:天钧一号(Pangu)、天钧二号(Pangu)、天钧三号(Fuxi),正在推进伏羲系列量产和神农系列预研 [23711]

产品矩阵总览:

产品架构制程核心规格FP32算力显存目标市场状态
天钧一号 (XDX X1900/R1900/151/121)盘古(IMG B/C系列IP)12nm2048计算核心4 TFLOPS16GB GDDR6, 256GB/s桌面/工作站/信创2023.06量产 [23531]
天钧二号盘古12nm1024计算核心~2 TFLOPS(估计)最高8GB GDDR6, 128GB/s工控/嵌入式/边缘2023.09发布,量产信息有限 [23590]
天钧三号伏羲已量产 [23711]
伏羲 A0伏羲(IMG DXD IP)5nmIMG DXD架构160 TFLOPS12GB HBM2高端图形渲染/游戏2025年流片验证完成,量产中 [23571]
伏羲 B0伏羲(GPU+NPU融合)先进制程GPU+NPU异构,FP8AIPC/端侧AI推理2025年流片阶段 [23574]
神农 A0神农(预研)先进制程下一代架构对标国际高端高端GPU预研中 [23786]

产品卡形态:

型号形态定位
XDX X1900服务器卡数据中心/云桌面
XDX R1900工作站显卡专业工作站
XDX 151桌面显卡桌面办公
XDX 121桌面显卡入门桌面

象帝先的产品线在国产GPU中属于”最像显卡公司”的——从服务器卡到桌面显卡,从高端渲染到端侧AI,形态完整。但一个关键事实是:这些产品全部基于Imagination Technologies的GPU IP授权。天钧系列基于IMG B/C系列IP,伏羲A0基于IMG DXD架构 [23579]。这意味着象帝先本质上是一家”IMG IP集成商”而非”GPU架构原创者”。虽然公司宣传”完全自主知识产权”,但业内人都清楚,基于第三方IP授权做SoC集成和从零设计GPU架构,是两种完全不同的能力层次。当然,这不是象帝先一家的问题——国内相当比例的”GPU公司”走的都是IMG授权路线。


4.16.1.4. 产品技术特点

架构本质:Imagination IP + 象帝先集成

象帝先的技术路线核心是:获得Imagination Technologies的GPU IP永久架构授权(据称是B系列和C系列,后升级为DXD架构),在此基础上进行SoC集成、驱动开发和生态适配 [23649]。这种模式的优势是大幅缩短了研发周期——天钧一号从立项到流片仅15个月,比完全自研快得多。但劣势是:核心GPU架构受制于IMG的进化节奏,无法在架构层面做根本性创新。

天钧一号技术特点:

  • 12nm工艺,2048个计算核心(IMG IP核心),4 TFLOPS FP32,16 TOPS AI算力 [23531]
  • 渲染算力与带宽之比21:1,符合业界小于25:1的理想比例——说明显存带宽配置合理,不是”瘸腿”设计 [23713]
  • 支持H.264/H.265/AV1/MPEG2/4及国标AVS/AVS+/AVS2编解码 [23536]
  • 支持国密系列算法和GPU虚拟化 [23536]
  • 图形API:OpenGL 4.6、OpenGL ES 3.2、OpenCL、Vulkan 1.3、DirectX [23718]
  • 性能对标:NVIDIA GTX 1660(2019年发布的中端游戏卡,TU116架构,约5 TFLOPS FP32)[23765]

伏羲A0技术特点:

  • 5nm制程,基于Imagination DXD GPU IP架构 [23571]
  • 160 TFLOPS FP32(传闻),12GB HBM2显存 [23573]
  • 支持硬件光线追踪(Ray Tracing)和超分辨率(Super Resolution)[23579]
  • 综合渲染性能较上一代提升一倍以上 [23589]
  • 已适配《黑神话:悟空》——国产GPU首次能够运行顶级3A大作 [23575]
  • 全球首款量产IMG DXD架构GPU [23584]
  • 伏羲B0:GPU+NPU异构融合,支持FP8,面向DeepSeek R1 7B/LLAMA/ChatGLM-6B/Stable Diffusion/Sora等端侧模型 [23813]

伏羲A0的160 TFLOPS FP32纸面参数相当惊人——作为对比,NVIDIA RTX 4090是约83 TFLOPS FP32,RTX 5090据传约100+ TFLOPS。但这里有一个关键疑点:IMG DXD架构的FP32算力能否在实际应用中有效释放?Imagination的GPU架构历史上以移动端能效比见长,但在桌面级高性能场景缺乏大规模验证。而且160 TFLOPS这个数字 目前仍属传闻级别,安孚科技官方披露仅确认”流片验证完成”和”核心技术指标达国际主流水平”,未公布精确算力数据 [23575]。⚠️ 需进一步核验。


4.16.1.5. 软件生态

象帝先的软件生态建设在国产GPU中属于”中规中矩但有亮点”:

图形API兼容性:

  • 支持OpenGL 4.6、OpenGL ES 3.2、Vulkan 1.3、OpenCL、DirectX等主流API [23718]
  • 伏羲A0完整支持上述最新图形API [23718]

AI框架适配:

  • 百度飞桨(PaddlePaddle)III级兼容性测试认证——这是飞桨最高级别认证。根据公开信息,国内仅百度昆仑芯和象帝先通过了III级认证 [23545]
  • 2025年2月完成DeepSeek模型的兼容适配 [23535]

国产CPU/OS生态:

  • 已通过麒麟、统信UOS、中科方德等国产操作系统兼容性认证 [23667]
  • 与飞腾、龙芯、鲲鹏等国产CPU完成适配 [23667]
  • 2023年第十八届”中国芯”优秀技术创新产品认证 [23596]

合作伙伴生态:

  • 与新华三、同方、宝德、粟米方田科技等整机厂商签署战略合作 [23886]
  • 与超云(SuperCloud)签署全面战略合作,推进国产GPU服务器 [23728]
  • 与百度、航天信息、浦发银行等应用生态企业合作 [23886]
  • 与图灵新讯美合作,拓展安防监控领域 [23850]

驱动成熟度:⚠️ 需进一步核验

有业内观察人士指出,象帝先的GPU驱动质量是”国产显卡的通病”——“始于期待,陷于PPT,终于驱动” [23832]。京东零售渠道已有象帝先显卡在售,但用户评价信息有限 [23844]。驱动的稳定性、兼容性和性能优化程度,目前缺乏独立的第三方评测数据。

象帝先的软件生态在国产GPU中处于”中等偏上”位置。飞桨III级认证是亮点,说明AI推理的适配深度不错。但图形驱动的成熟度仍然是国产GPU的阿喀琉斯之踵——尤其是基于IMG IP做驱动开发,需要同时面对IMG底层驱动的限制和上层应用兼容性的挑战。这也是为什么”跑通《黑神话:悟空》“会被当作新闻——在NVIDIA/AMD的世界里,显卡能跑游戏是”基本操作”,在中国GPU的世界里却是”里程碑”。


4.16.1.6. 商业化与客户

目标市场:

  • 云桌面、CAD/CAE、元宇宙及数字孪生 [23667]
  • 信创办公、政企终端 [23670]
  • 工控、嵌入式、边缘计算 [23591]
  • 安防监控 [23850]
  • 近期拓展:AIPC端侧AI推理(伏羲B0)[23813]

已知客户/合作伙伴:

  • 超云数字技术集团(数据中心、云桌面、云渲染深度合作)[23728]
  • 新华三、同方、宝德、粟米方田科技(整机厂商)[23886]
  • 首都在线(曾签署战略合作,但后续有1881万元诉讼未结)[23741]
  • 图灵新讯美(安防视控)[23850]

商业化现状评估:⚠️ 公开信息有限

天钧一号于2023年6月量产,天钧二号于2023年9月发布后未见明确量产信息 [23884]。天钧系列在信创市场实现”批量出货” [23716],但具体出货量从未公开披露。有分析指出,象帝先”在信创领域的落地始终未能有实质性突破” [23889]

公司产品已出现在京东零售渠道,面向个人消费者销售 [23844]。但零售端的销量、用户反馈等数据公开信息极为有限。

象帝先的商业化是它最大的”黑箱”——公司从未披露过具体营收数据和出货量。2024年8月危机爆发的直接原因是”自我造血能力有限”+“外部融资中断” [23679]。一家估值150亿的公司,却因为融不到5亿就濒临倒闭——这说明自有现金流几乎为零,商业化收入远不足以支撑运营。伏羲A0的5nm量产能否打开局面,是象帝先商业化的”生死手”。


4.16.1.7. 财务、融资与估值

象帝先的资本故事堪称中国GPU创业史上最戏剧性的篇章。

融资历程:

时间轮次金额投资方备注
2020年天使轮未披露重庆两江产业发展集团等国资成立同年完成 [23641]
2022-2023年A轮/A+轮/B轮/B+轮累计约25亿元14个投资方,含中信集团、芯能创投等[23514]
2024年4月入选重庆市独角兽,估值21.69亿美元(约150亿人民币)[23513]
2024年8月B轮对赌(满5亿元)失败,遭股东起诉 [23519]
2025年2月战略融资数亿元安孚科技(603031)+多家VC安孚通过子公司启睿芯超持股6.9% [23525]
2026年5月新一轮未披露智路资本、钧鑫投资联合领投,广州粤港基金等跟投[23689]

估值变化:

  • 2024年4月峰值:约150亿人民币 [23513]
  • 2024年危机后,有雪球用户称”去年按120亿投前估值融资,现在只按80亿估值” [23568](⚠️ 非官方信息,需核验)
  • 2026年3月:大胜达(603687.SH)以5.5亿元取得22.98%股权,对应投前估值约20亿元(但此笔交易是否最终完成不确定)[22425]

财务状况:⚠️ 公开信息有限

  • 公司从未公开披露经审计的财务数据
  • 2024年8月危机时,公司账户被冻结,唐志敏和公司均被列为被执行人,执行标的数十万元起 [23632]
  • 2025年初仍有20余条被执行人记录,累计被执行金额数百万元,涉及追索劳动报酬纠纷 [23630]
  • 公司商业化收入有限,主要依赖融资输血 [23679]

象帝先的财务健康度在国产GPU公司中处于”ICU级别”。从150亿估值到账户冻结,只用了不到半年。一家公司因为融不到5亿对赌资金就濒临解散,说明两个问题:一是烧钱速度极快(400人团队+5nm流片+多地研发中心),二是商业化收入几乎可以忽略不计。安孚科技和智路资本的入局给了象帝先”续命钱”,但IPO前能否建立起可持续的商业模式,是比上市本身更根本的问题。


4.16.1.8. 核心竞争力

  1. 创始人IP——唐志敏的行业号召力:唐志敏是中国芯片界为数不多的”双料成功创业者”——龙芯CPU创始人之一+海光信息缔造者。这一履历在融资、人才招募、政府关系、产业合作中具有不可替代的信用背书价值 [23550]

  2. CPU+GPU双基因团队:核心团队来自海光(CPU)和NVIDIA/AMD(GPU),是国内少数同时具备CPU和GPU研发经验的团队。这种”双重视角”在芯片架构设计和系统级优化中具有独特优势 [23494]

  3. IMG IP授权带来的”快车道”:基于Imagination的永久架构授权,象帝先实现了极快的产品迭代节奏——天钧一号15个月流片,伏羲架构两年内完成。这比完全自研架构的公司快了一到两个产品周期 [23649]

  4. 图形渲染的差异化定位:在大多数国产GPU公司扎堆AI训练/推理的背景下,象帝先坚持”图形渲染+端侧AI推理”路线,伏羲A0是全球首款量产的IMG DXD架构GPU,支持光追和超分辨率 [23579]。这使其在信创图形显示和国产游戏适配领域建立了差异化。

  5. “不死鸟”般的生存韧性:从2024年8月濒临解散到2025年2月融资复活,再到2026年冲刺IPO,象帝先展现了惊人的”求生欲”和资本运作能力。这种”死过一次”的公司在团队凝聚力上反而可能更强。


4.16.1.9. 主要短板

  1. IP授权依赖——“自主可控”存疑:核心技术基于Imagination GPU IP授权,而非自研GPU架构。这意味着象帝先在GPU核心微架构层面没有自主迭代能力,产品性能天花板受限于IMG IP的进化速度 [23649]。IMG的GPU架构历史上以移动端为主,在桌面级高性能场景存在天然的性能天花板。

  2. AI能力薄弱:天钧一号的AI算力仅16 TOPS(INT8),比很多NPU芯片都低。有前员工直言”Imagination的IP核心针对的是移动平台,AI能力聊胜于无” [23884]。伏羲B0虽有GPU+NPU融合设计,但端侧AI推理市场极为拥挤(高通、联发科、苹果、华为海思等),象帝先几乎没有任何先发优势。

  3. 商业化未经验证:经过四年多发展,公司商业化收入仍”可以忽略不计”。信创市场虽有批量出货,但量与价均未公开,且面临景嘉微、摩尔线程、芯瞳等更成熟的信创GPU厂商的竞争 [23889]

  4. 财务极度脆弱:累计融资约25亿元,却因融不到5亿对赌资金陷入绝境。烧钱速度与商业化收入严重不匹配,IPO前仍需大量资金支持5nm量产和生态建设。

  5. 驱动与软件生态不成熟:图形驱动的稳定性、兼容性、性能优化程度缺乏独立验证。虽然API兼容性”纸面上”完整,但实际运行复杂3D应用和游戏的体验,与NVIDIA/AMD差距巨大。

  6. 团队稳定性存疑:2024年8月裁掉约400人,核心团队之外的研发力量大幅削弱。虽然公司声称”老员工表达了强烈的回归意愿” [23528],但实际回流情况不明。


4.16.1.10. 供应链风险

象帝先的供应链风险在国产GPU公司中属于 极高 级别:

  • 5nm制程(伏羲A0):仅台积电和三星可量产。美国2024年11月升级出口管制,要求台积电切断与中国大陆公司的7nm及以下AI芯片代工合作 [23763]。象帝先的伏羲A0采用的是5nm工艺,且明确涉及AI和图形渲染,受制裁风险极高。虽然目前已完成流片验证,但后续量产能否持续,取决于美国出口管制政策的具体执行细则。

  • 12nm制程(天钧系列):台积电或三星代工。12nm不在当前最严制裁范围内,但若地缘政治进一步升级,不排除被波及。

  • HBM2显存(伏羲A0):HBM供应链高度集中(SK海力士、三星、美光),且受美国出口管制影响。2025年美国已将HBM纳入对华出口限制范围 [23764]

  • IMG IP授权:Imagination Technologies虽为中资(凯桥基金)控股,但总部和主要研发仍在英国,受英国和欧盟出口管制法规约束。若地缘政治恶化,IMG IP授权可能面临合规风险 [23649]

  • 国内替代路径:若台积电断供,中芯国际目前无法提供5nm/7nm量产能力,仅能提供14nm/12nm。象帝先的高端产品线将面临”无厂可代”的困境。

象帝先的供应链风险可以用一句话概括:伏羲A0的5nm工艺和HBM2显存,让它站在了美国出口管制”枪口”的正前方。 流片验证成功不代表量产可持续——台积电随时可能因政策变化中断合作。相比之下,天钧系列的12nm产品线虽然风险较低,但性能仅GTX 1660水平,在市场上缺乏竞争力。


4.16.1.11. 与NVIDIA/AMD/Intel的对应关系

象帝先产品对标产品对标维度差距评估
天钧一号 (12nm, 4 TFLOPS)NVIDIA GTX 1660 (12nm, ~5 TFLOPS)桌面图形渲染接近,但驱动和生态差距大
天钧二号 (12nm, ~2 TFLOPS)NVIDIA GT 1030 / Intel Iris Xe嵌入式/工控图形功能可对标,性能接近
伏羲A0 (5nm, 160 TFLOPS传闻)NVIDIA RTX 4090 (~83 TFLOPS) / RTX 5090高端图形渲染纸面算力高,实际性能需验证
伏羲B0 (GPU+NPU)Intel Meteor Lake (CPU+GPU+NPU) / AMD Ryzen AIAIPC端侧推理生态差距巨大

技术路线对应关系:

  • 象帝先 ≈ Imagination GPU IP授权 + 自研SoC集成 + 自研驱动 + 国产生态适配
  • 最接近的商业模式类比:早期ARM Mali GPU的授权客户(如三星Exynos中的Mali GPU),但象帝先试图将IMG IP从移动端推向桌面和服务器端

象帝先在国际上没有一个完全对应的公司。它既不是NVIDIA/AMD那样的全栈自研GPU公司,也不是简单的GPU IP授权客户。它试图走一条”基于IMG IP做高端桌面GPU”的路径——这条路在全球范围内几乎没有成功先例。IMG的GPU架构在移动端(特别是苹果A系列芯片时代)有过辉煌,但从未在桌面级高性能GPU市场证明过自己。象帝先在做的,本质上是一个”IMG GPU架构的桌面化/服务器化”实验。


4.16.1.12. 未来3年判断

2026年:

  • 若股份制改造顺利完成并提交IPO申请,将成为继摩尔线程之后第二家冲刺资本市场的国产GPU公司
  • 伏羲A0量产是关键——如果5nm产能稳定且产品性能兑现,将在高端国产渲染市场建立壁垒
  • 神农架构预研启动,但资金消耗巨大
  • 核心风险:美国出口管制升级导致5nm断供;IPO审核不通过

2027年:

  • 若IPO成功,资金充裕度将大幅改善,可支撑神农架构研发
  • 天钧系列在信创市场的份额有望稳步提升,但面临景嘉微、摩尔线程的激烈竞争
  • 伏羲B0若能切入AIPC市场,可能打开新的增长空间
  • 核心风险:IPO后商业化数据若不及预期,股价可能承压

2028年:

  • 若神农架构成功流片,象帝先可能实现从”IMG IP集成商”到”部分自研GPU架构”的跨越
  • 若神农架构失败或延迟,公司可能长期停留在”IMG IP集成商”层面,估值天花板明显
  • 行业整合期——国产GPU赛道可能已从20+家缩减至5-7家,象帝先能否跻身”幸存者”行列取决于产品力和商业化能力

核心判断:象帝先的未来三年可以用”过三关”来概括——第一关(2026)是IPO关,能否成功上市决定了公司能否获得长期资金支持;第二关(2027)是商业化关,5nm伏羲A0能否打开市场决定了公司能否摆脱”纯融资驱动”模式;第三关(2028)是架构关,神农架构能否实现从IMG IP到自研的跨越,决定了公司是”中国的IMG显卡集成商”还是”真正的GPU公司”。三关全过,象帝先可能成为国产GPU赛道的重要玩家;过不了其中任何一关,都可能被淘汰。考虑到2024年已经历过一次”濒死体验”,象帝先的”容错率”极低。


本节关键事实待核验清单:

  • ⚠️ 伏羲A0 160 TFLOPS FP32算力——来源为”业内传闻”,非官方正式披露 [23573]
  • ⚠️ 天钧系列具体出货量——从未公开披露
  • ⚠️ 公司实际营收/亏损数据——从未公开披露
  • ⚠️ 当前实际员工人数——2024年裁员后规模不明确
  • ⚠️ 安孚科技启睿芯超6.9%持股是否已完成工商变更
  • ⚠️ 大胜达5.5亿元取得22.98%股权交易是否最终完成

4.17. 登临科技

同上

4.17.1. 公司概况

登临科技(Denglin Technology)成立于2017年底,总部现位于苏州工业园区,2025年完成股份制改造,更名为“苏州登临科技股份有限公司”[23948]。公司是国内首家完全凭借自主创新实现规模化商业落地的通用GPU/GPGPU企业,其核心标签是“GPU+”——一种基于GPGPU的软件定义片内异构计算架构[23949]

旗舰产品Goldwasser(高凛)系列于2021年量产,是国内首个规模量产的GPGPU高性能通用AI加速器[23985]。第二代Knuth(纳适)系列面向边缘AI及大模型推理,已开始随合作伙伴一体机出货[23983]。截至2026年,登临科技已完成多轮融资,投资方包括中国互联网投资基金(中网投)、高通创投、光远资本等,估值约150亿元人民币(第三方估算,非官方披露)[24114]。公司被列为“中国独角兽”企业,张江高科、中新集团、东微半导等A股上市公司均持有其股权[24114]

一句话定位:登临是国产GPU赛道中差异化的“能效优先”选手——不追求峰值算力对标NVIDIA旗舰,而是通过片内异构架构在同等功耗下提供3倍以上能效比,以“硬件兼容CUDA”降低迁移成本,主攻AI推理和边缘计算[23947]

4.17.2. 创始团队与核心成员

登临的团队基因深植于GPU IP授权领域,这在国内GPU创业公司中独一无二。

姓名职位关键背景
李建文创始人兼CEO清华大学微电子所本科、无线电系硕士,GPU领域30年+;前图芯科技(Vivante)副总裁,负责的GPU IP产品被卖给飞思卡尔、英特尔、美满、谷歌、三星、诺基亚、大华等[24002]
王平联合创始人清华大学本硕,与李建文共同创办登临[24004]
王震宇联合创始人多次代表登临对外发声,拥有多项GPU架构专利(如CN115687197B)[23943]
王晨辉联合创始人在云栖大会等场合代表登临发表技术演讲,强调能效优势[23947]
杨剑全球运营副总裁曾任华为全球供应链副总裁,为登临带来供应链管理经验[24004]

🧬 团队基因解读:李建文在图芯的IP授权经验,让他深刻理解GPU的通用性价值和能效痛点。登临选择“硬件兼容CUDA + 架构创新提升能效”,本质上是将IP授权时代的“通用性设计思维”与“差异化创新”融合[24019]。团队在硅谷、成都、杭州等设有七个研发中心,工程化落地能力较强[24004]

4.17.3. 发展历程:从图芯老将到GPU+先行者

时间里程碑事件
2004年图芯科技(Vivante)成立,李建文担任副总裁[24152]
2015年芯原股份全资收购图芯,GPU IP并入芯原[24389]
2017年11月登临科技成立于上海临港[23949]
2018-2020年专注研发,完成GPU+架构设计和Goldwasser流片;李建文花半年时间走访几十个客户,明确以能效为突破口[24003]
2020年Q3Goldwasser首款产品量产,开始与互联网、安防龙头企业集成测试[23994]
2021年Goldwasser正式量产投放市场;完成A+轮融资[23957]
2022年销售过万片,获数万片客户订单,批量量产交付;发布“登临瀚海”生态合作伙伴计划;Goldwasser与飞桨完成II级兼容性测试[23950]
2023年7月完成C轮融资,中网投独家投资[23923]
2024年长电科技为登临等企业提供Chiplet封装服务(良率90%)[24081]
2025年1月完成新一轮战略融资,高通创投与光远资本持续加持[23924]
2025年6月与此芯科技、半微科技联合推出基于KS20的边缘AI一体机[23983]
2025年KS系列GPU全面适配MiniMax M2.5大模型[24066];深度赋能华北区域智算中心(石家庄)[23948]
2025年完成股份制改造,变更为“苏州登临科技股份有限公司”[24298]

资深架构师点评:登临没有走“对标NVIDIA”的模仿路线,而是从客户痛点出发,在2018年就判断推理能效是核心需求。这一判断在2024-2025年AI推理需求爆发时被充分验证,但其训练能力薄弱的短板也日益突出[23947]

4.17.4. 产品矩阵:Goldwasser与Knuth双代同堂

4.17.4.1. 产品代际总览

代际产品系列制程架构量产/发布时间典型算力目标场景
第一代Goldwasser UL12nm(推测)GPU+202132-64 TOPS@INT8边缘推理
第一代Goldwasser L12nmGPU+2021128-256 TOPS@INT8云端推理
第一代Goldwasser XL12nmGPU+2021512 TOPS@INT8数据中心训推一体
第二代Knuth KS20未公开GPU+20251 TFLOPS@FP32边缘AI/推理
第二代Knuth KS系列未公开GPU+待确认未公开,针对Transformer优化大模型推理/生成式AI

来源:[24024]

4.17.4.2. 旗舰产品 Goldwasser 亮点

  • 能效比:40W TDP下输出128 TOPS@INT8,功耗较国际主流产品降低50%以上,芯片面积减少30%[24040]
  • 显存配置:最高64GB(官方称“国际主流产品4倍”),解码能力为“国际主流推理产品8倍”[24029]
  • 兼容性:硬件兼容CUDA/OpenCL,支持PyTorch、TensorFlow、飞桨等框架,以及国内外主流CPU、服务器[24014]

4.17.4.3. 第二代 Knuth 系列

  • KS20:FP32 1 TFLOPS,8/16/32/64GB LPDDR5,102.4 GB/s带宽,约25-32W,PCIe Gen4 x4,支持40路1080P30硬解码,最大60路解码或30路编码[24122]
  • 官方表示,Knuth系列针对Transformer和生成式AI大模型有大幅性能提升,能效比和性价比优势明显[23946]

关键信息:KS20已随此芯科技一体机商用,但数据中心级Knuth高端产品(如对标Goldwasser XL的升级版)具体参数尚未公开,制程节点也未披露,需进一步跟踪[23983]

4.17.5. 产品技术特点:GPU+架构的“能效哲学”

4.17.5.1. GPU+架构核心思想

登临的GPU+是一种 软件定义的片内异构计算体系:在GPU内同时集成GPGPU可编程引擎和专用张量计算引擎,通过高维度调度器动态分配计算资源,让不同效率的核各司其职[24042]

传统GPU的所有计算都用统一的CUDA Core执行,AI计算效率低。NVIDIA的Tensor Core是紧耦合异构,而登临的GPU+实现了 松耦合的片内异构,调度引擎可在更高抽象维度上控制算力分配,降低外部带宽依赖[24048]

4.17.5.2. 技术亮点

特性描述技术意义
片内异构GPGPU引擎 + Tensor引擎 + 自研高吞吐数据交换网络避免传统系统级异构的芯片间数据搬运瓶颈[24047]
软件定义调度调度引擎在高维度控制算力分配不同计算引擎可并行也可独立工作[24048]
硬件兼容CUDA硬件层面直接兼容CUDA/OpenCL编程模型无需源码修改即可迁移,降低客户迁移成本[24053]
降低外部带宽依赖数据流和内存管理优化减少对HBM/GDDR6的依赖,缓解显存带宽瓶颈[24048]
Dark Silicon优化异构高/中/低效率核组合避免传统GPU堆砌大量中效率核但无法全部打开的问题[24042]

4.17.5.3. 与NVIDIA的架构对比

维度登临 GPU+NVIDIA (如T4/A10)
计算引擎GPGPU + Tensor分离异构CUDA Core + Tensor Core紧耦合
调度方式软件定义高维度调度硬件固定调度策略
能效策略架构创新降低功耗制程升级 + 架构优化
CUDA兼容硬件级API兼容原生支持
图形能力部分支持
生态依赖借用CUDA生态自有CUDA生态

🤔 架构师锐评:登临GPU+在GPU通用性与ASIC效率之间找到了“甜点”。但NVIDIA的Tensor Core也在快速演进(Hopper的Transformer Engine、Blackwell的FP4),登临的架构优势能否持续,取决于其在制程和生态上的追赶速度。

4.17.6. 软件生态

4.17.6.1. Hamming工具链

登临自研的Hamming(翰铭)软件工具链支持主流AI框架(PyTorch、TensorFlow、飞桨)、主流操作系统(Linux,与龙蜥Anolis OS完成兼容互认证)、国内外主流CPU和服务器[24162]。飞桨的dlNNE库可在推理期间对登临硬件进行OP融合和优化,降低推理延迟[24163]

4.17.6.2. CUDA兼容策略

登临的“硬件兼容CUDA”是其在国产GPU中独特的卖点,提供API级兼容,从源码层面实现无缝迁移,大幅降低客户迁移成本[24053]。但并非完全运行NVIDIA二进制文件,需重新编译。

4.17.6.3. 登临瀚海生态计划

登临联合数十家硬件服务器/工控机厂家、算法公司、系统软件商、行业解决方案商等,构建国产化AI生态[23954]。Goldwasser已适配数十个软硬件平台,并与飞桨、极视角等达成战略合作[24329]

4.17.6.4. 软件生态成熟度评估

维度状态评价
框架支持PyTorch/TF/飞桨基本覆盖主流框架
CUDA兼容硬件级API兼容差异化优势,降低迁移成本
算子覆盖持续扩展中公开信息有限,大模型适配起步
开发者工具Hamming SDK基础工具链具备,但社区规模小
大模型适配已适配MiniMax M2.5开始追赶,但距离昇腾、昆仑芯仍有差距

4.17.7. 商业化与客户

登临是国产GPU创业公司中商业化最早、落地场景最广的企业之一:

  • 2021年:Goldwasser量产,在智慧城市、互联网等领域商业化落地[23984]
  • 2022年:销售过万片,客户订单达数万片,批量量产交付[23950]
  • 2023年:完成与国内主流运营商、操作系统、CPU、互联网企业、AI框架、服务器的兼容互认证[24061]
  • 2025年:深度赋能华北区域智算中心(石家庄),采取“算力+行业AI模型”双轮驱动[23948];与MiniMax M2.5完成适配[24066];推出边缘AI一体机[23983];在制造业(PCB、半导体、锂电)、农业等场景落地[24301]

主要应用场景:智慧城市、智算中心、互联网、金融、能源电力、智能驾驶、工业视觉、智慧农业等[23950]

4.17.8. 财务、融资与估值

4.17.8.1. 融资历程

轮次时间投资方金额
天使/A轮2017-2020光远资本等未披露
A+轮2021年前光远资本持续加码等未披露
C轮2023年7月中网投独家投资 [23923]未披露
战略轮2025年1月高通创投、光远资本、粒子未来、擎领华御、硅港资本、乾汇智投、国内信息化头部企业等 [23924]未披露

累计融资额未公开披露。对比壁仞科技累计融资超47亿元,登临应在其之下[23930]

4.17.8.2. 估值与股权

指标数据来源
估值约150亿元人民币(第三方估算,非官方披露)[24114]
张江高科持股间接持股,价值约2亿元[24114]
东微半导持股0.2175%(1000万元收购老股)[24086]
中新创投持股4.3998%(5000万元收购)[24086]
中新集团参股间接投资[24232]

⚠️ 150亿估值为产业园专题报告披露,非公司官方信息。东微半导老股交易价格85.2378元/股,对应估值约46亿元,可能存在折价,不反映最新估值[24086]

4.17.8.3. 营收与财务

登临未公开披露财务数据。2022年销售过万片,以单卡数千至数万元估算,营收或在数千万至亿元级别。公开信息无营收、利润、研发费用等具体数据,需进一步核验。

4.17.9. 核心竞争力

竞争力维度具体表现评分
架构创新GPU+片内异构,国内首创,兼顾通用性与效率⭐⭐⭐⭐
能效比3倍+能效优势,TCO显著降低,客户实测验证⭐⭐⭐⭐⭐
商业化先发国内首个规模量产、首个超万片出货,落地场景广泛⭐⭐⭐⭐⭐
CUDA兼容硬件级兼容,迁移成本低,保护客户现有投资⭐⭐⭐⭐
团队经验创始人GPU IP背景30年,供应链有华为经验⭐⭐⭐⭐
场景覆盖边缘到数据中心全覆盖,行业应用广泛⭐⭐⭐
供应链韧性采用12nm成熟制程(一代),受先进制程限制影响小⭐⭐⭐⭐

4.17.10. 主要短板

短板详细描述严重性
非全功能GPU无图形渲染管线,无法覆盖图形渲染市场⭐⭐⭐
绝对性能上限12nm制程限制,峰值算力远低于7nm/5nm竞品⭐⭐⭐⭐
大模型训练能力公开信息极少,未见万卡集群部署,大规模训练能力存疑⭐⭐⭐⭐⭐
HBM缺失采用GDDR6/LPDDR5,无HBM方案,显存带宽受限⭐⭐⭐⭐
软件生态规模与NVIDIA CUDA生态差距巨大,开发者社区薄弱⭐⭐⭐⭐
公开信息不透明关键技术和财务信息极少披露,路标不清晰⭐⭐⭐
IPO进展缓慢相比摩尔线程、壁仞、燧原,IPO节奏明显滞后,尚无明确辅导备案⭐⭐⭐⭐
品牌影响力在国产GPU阵营中声量相对较小,市场认知度低⭐⭐⭐

4.17.11. 供应链风险

4.17.11.1. 制程与代工

  • Goldwasser(第一代):采用12nm成熟制程,不受台积电16/14nm及以下断供影响[24383]
  • Knuth(第二代):制程未公开,若采用更先进制程则面临台积电限制风险。台积电自2024年11月起暂停向大陆AI/GPU客户供应7nm及以下,2025年1月扩展至16/14nm,要求在美国批准的封测厂封装[24243]
  • 登临未出现在美国实体清单上,但若转向先进制程,可能面临流片和封测限制。

4.17.11.2. 先进封装

长电科技为登临提供Chiplet封装服务,良率达90%,短期内封装供应链风险可控[24081]。但若美国进一步收紧封装环节限制,存在潜在风险。

4.17.11.3. 综合评估

风险维度等级说明
代工断供风险中等12nm产品不受影响,但若升级先进制程则面临风险
实体清单风险目前未在清单上
封装风险低-中国内封装,但若美国扩大管制范围存在风险
IP/EDA风险中等若使用美国EDA工具设计先进制程芯片,存在合规风险

4.17.12. 与NVIDIA/AMD/Intel的对应关系

维度登临科技NVIDIAAMDIntel
产品定位AI推理加速器全功能GPU全功能GPUAI加速器(Gaudi)
架构路线片内异构GPU+CUDA Core + Tensor CoreCDNA/RDNA矩阵引擎 + Gaudi
最接近对标NVIDIA T4/L4(推理卡)Intel Gaudi系列
图形能力完整支持完整支持有限
训练能力有限业界领先较强较强
推理能效宣称3倍+优势基准接近有竞争力
生态兼容硬件兼容CUDA原生CUDAROCmoneAPI

登临的产品定位最接近NVIDIA的T4/L4推理卡和Intel的Gaudi系列——强调AI推理能效,而非追求全功能GPU或旗舰级训练性能。

4.17.13. 未来3年判断(2026-2028)

4.17.13.1. 乐观情景(概率25%)

  • 第二代Knuth高端产品量产,制程升级(如7nm),FP16算力大幅提升,进入大模型推理主流市场。
  • 成功登陆科创板,估值突破200亿。
  • 智算中心推理需求爆发,能效优势成为政企客户首选。
  • 与头部互联网公司达成深度合作,营收突破10亿元。

4.17.13.2. 基准情景(概率50%)

  • Knuth系列渐进式迭代,保持推理能效优势但训练能力仍薄弱,市场局限于边缘推理和行业AI。
  • 2026-2027年完成IPO(可能科创板),估值150-200亿。
  • 在安防、能源、制造等垂直领域保持优势,但在云端大模型推理领域被华为昇腾、昆仑芯等挤压。
  • 与服务器厂商、算法平台形成更紧密的生态绑定,成为“信创AI推理”优选。

4.17.13.3. 悲观情景(概率25%)

  • 大模型训练需求持续主导,推理专用芯片市场被通用GPU(NVIDIA/华为昇腾)挤压。
  • 融资困难,IPO推迟,人才流失,市场份额萎缩。
  • 被大型芯片企业或上市公司收购,成为其AI加速器部门。

4.17.13.4. 核心判断

登临科技的命运取决于AI推理市场的成长速度。IDC预测未来算力将从训练驱动转为推理驱动,这为登临提供了结构性机遇[24375]。但登临必须在生态建设、大客户获取、品牌影响力上大幅加码,并尽快推出面向大模型推理的竞争力产品。若一味固守12nm,其架构优势可能被制程差距抹平。

从技术架构角度看,GPU+是最接近“AI推理最优解”的设计之一,但技术正确不等于商业成功。登临需要证明自己不仅仅是一家“能效宣传公司”,而是能持续迭代、大规模铺货、并最终盈利的GPU企业。

4.18. 其他重要厂商

补充分析芯原、瑞芯微、全志、晶晨、飞腾、龙芯、兆芯等在GPU/加速器生态中的角色

架构师注:本小节聚焦于那些并非以”独立GPU/AI加速器供应商”为核心定位,但在国产GPU/加速器生态中扮演关键角色的厂商。它们包括:GPU IP授权商(芯原)、SoC内置GPU/NPU厂商(瑞芯微、全志、晶晨),以及国产CPU厂商(飞腾、龙芯、兆芯)。这些厂商的GPU/加速器能力虽不及前述独立GPU公司,但它们的生态位——尤其在中国信创、AIoT和端侧AI市场——构成了国产GPU生态的”毛细血管”和”底座”。忽略它们,就无法完整理解国产GPU生态的全貌。


4.18.1. 芯原股份(VeriSilicon)——中国GPU IP的”军火商”

4.18.1.1. 为什么芯原在GPU生态中重要?

芯原是中国大陆唯一一家进入全球IP供应商前十的半导体IP公司(2024年IPnest排名:中国大陆第1、全球第8)[24468]。其核心价值在于:它是大量国产芯片的”隐形GPU IP供应商”——搭载芯原GPU IP的客户芯片全球累计出货超过 20亿颗,覆盖数据中心、汽车电子、可穿戴设备、PC等市场[24459]。换句话说,中国市场上大量SoC芯片中的GPU核心,其底层架构来自芯原而非ARM Mali或Imagination。

通俗比喻:如果ARM是移动GPU IP的”沃尔玛”,芯原就是中国本土的”精品IP超市”——品类更少但更灵活、更贴近中国客户需求,且能提供从GPU到NPU、VPU、ISP、DSP的”全家桶”一站式服务。

4.18.1.2. GPU IP产品线全景

芯原的GPU IP已形成从 超低功耗可穿戴设备高性能云游戏/桌面级 的完整覆盖:

GPU IP产品发布时间定位关键特性目标市场
Vitality架构2024年12月高性能可配置Tensor Core、32-64MB L3缓存、单核128路云游戏、DX12云游戏、AI PC、独立显卡、集成显卡 [24436]
GPGPU-AI计算IP2025年6月汽车/边缘AIINT4/8、FP4/8/16/32/64、BF16、TF32;HBM/LPDDR5X/PCIe Gen5-6/CXL;原生PyTorch/TensorFlow/ONNX汽车电子、边缘服务器、LLM推理 [24474]
GCNano3DVG2025年4月超低功耗3D/2.5D混合渲染、DDR-less配置、OpenGL ES 2.0智能手表、AI/AR眼镜 [24448]
VGLite 2.5D GPU已商用嵌入式GUI矢量图形加速、兼容LVGL可穿戴、IoT [24467]

4.18.1.3. GPGPU-AI计算IP的技术深度(2025年6月发布)

这是芯原在AI加速器领域最具野心的产品。关键特性:

  • 支持 混合精度:INT4/8、FP4/8、BF16、FP16/32/64、TF32 [24474]
  • 集成 稀疏感知计算引擎,可编程AI加速器 [24474]
  • 支持 3D堆叠内存、LPDDR5X、HBM、PCIe Gen5/Gen6、CXL等高带宽接口 [24474]
  • 支持 多芯片、多卡扩展部署,系统级可扩展 [24474]
  • 原生支持 PyTorch、TensorFlow、ONNX、TVM 等主流AI框架 [24474]
  • 提供 通用计算语言(GPCL),兼容主流GPGPU编程语言 [24474]

架构师评注:芯原的GPGPU-AI IP在技术规格上非常激进——支持FP4精度、CXL互联、3D堆叠内存,这些是NVIDIA H100/B200级别的特性。但需要注意的是,IP和芯片是两回事:芯原提供的是”设计图纸”(IP),客户需要自己完成芯片设计、流片、验证、量产。从IP到量产芯片的距离,在7nm以下制程可能长达2-3年。芯原自己不做芯片,这是它和华为昇腾、寒武纪等芯片公司的本质区别。

4.18.1.4. 商业模式与生态角色

芯原的核心商业模式是 IP授权(License + Royalty)一站式芯片定制服务。2025年营收31.52亿元(同比+35.77%),在手订单50.75亿元(近60%为数据处理领域)[24992]。累计IP客户超460家 [24827]

芯原在GPU生态中的角色类似于ARM在移动CPU生态中的角色——提供底层架构授权,让更多公司能快速开发自己的GPU/加速器芯片。Vitality架构的推出意味着芯原开始向高性能GPU IP领域进军,与ARM Mali/Immortalis、Imagination BXM/IMG系列直接竞争。

架构师注:芯原的战略路线是”IP芯片化→芯片平台化→平台生态化”。Chiplet架构是其中的关键——芯原正帮助客户基于Chiplet设计AI芯片,布局2.5D CoWoS等先进封装。2025年芯原宣布收购RISC-V CPU IP企业芯来智融和逐点半导体(Pixelworks中国),进一步补强GPU和视觉处理IP矩阵 [24872]。这一系列动作表明,芯原正在构建一个”IP全家桶”——CPU(RISC-V)+ GPU(自有)+ NPU(自有)+ ISP(自有)+ VPU(自有),目标是为客户提供完整的”芯片设计乐高”。

4.18.1.5. 与国产GPU/加速器厂商的关系

芯原的GPU IP已被多家国产芯片厂商采用:

  • 全志科技A733采用芯原VIP9000 NPU架构 [24598]
  • 芯原NPU IP已在82家客户的142款芯片中获采用,累计出货超1亿颗 [25469]
  • GPGPU IP已被客户采用部署至高性能AI芯片中,面向数据中心、HPC、汽车等领域 [25458]

关键问题:芯原的客户中是否包括华为、寒武纪、摩尔线程等头部GPU厂商?公开资料显示,寒武纪、华为昇腾等头部厂商均采用自研架构,不依赖第三方GPU IP。芯原的GPU IP客户更多集中在 需要”快速上车”的中小型芯片设计公司跨界进入AI芯片的行业客户。芯原的价值在于”降低芯片设计门槛”,而非为顶级GPU公司提供核心IP。

4.18.1.6. 核心评价

维度评价
技术定位中国GPU IP”军火商”——自己不造芯片,但大量芯片内置芯原GPU
核心优势IP品类最全的中国半导体IP公司;GPU IP累计出货20亿颗验证
关键短板不直接做芯片,无法像NVIDIA一样掌控软硬件全栈;高性能GPU IP(Vitality)尚需客户验证
战略意义中国GPU生态的”底层基础设施”——降低国产芯片GPU集成门槛
股价驱动力AI算力IP需求爆发 + Chiplet平台化 + 收购扩张

4.18.2. 瑞芯微(Rockchip)——端侧AI SoC的”GPU/NPU全能王”

4.18.2.1. 为什么瑞芯微在GPU/加速器生态中重要?

瑞芯微是中国大陆出货量最大的AIoT SoC供应商之一,2025年营收31.36亿元(+46.94%),净利润10.23-11.03亿元(+72-85%)[24527]。其核心价值在于:它是中国端侧AI芯片领域产品线最完整的厂商,从0.5 TOPS到32 TOPS的NPU全梯度覆盖,且GPU从ARM Mali向ARM Magni系列持续演进。

通俗比喻:如果把数据中心GPU比作”航空母舰”,瑞芯微的SoC就是”快艇舰队”——单艘火力不大,但数量庞大、场景灵活、成本极低。在大模型走向端侧的大趋势下,这类”快艇”的战略价值正在被重新评估。

4.18.2.2. GPU演进路线

芯片GPU架构性能特征
RK3588ARM Mali-G610 MP4Valhall支持OpenGL ES 3.2 / Vulkan 1.2 / OpenCL 2.2
RK3576ARM Mali-G52 MC3Bifrost中高端AIoT
RK3568ARM Mali-G52Bifrost中端
RK3688(预计2026)ARM Magni系列推测Mali-G720级别>2 TFLOPS,支持UCIe多芯片互联 [24488]
RK3668(2025发布)ARM Magni GPU推测Mali-G720级别1-1.5 TFLOPS [24500]

架构师注:瑞芯微的GPU并非自研,而是ARM Mali/Magni的授权集成。但瑞芯微的NPU是 自研 的——这是它与全志(使用芯原NPU IP)的关键差异。自研NPU意味着瑞芯微可以更灵活地优化NPU和GPU之间的协同计算,这在端侧大模型推理中尤为重要。RK182X协处理器(2025年Q3发布)的推出是瑞芯微”解耦算力”战略的关键——通过PCIe将NPU协处理器与主控SoC分离,实现AI算力的独立升级,这一思路类似于NVIDIA的”GPU+CPU”分离策略 [24500]

4.18.2.3. NPU算力全梯度

算力层级代表芯片NPU算力市场定位
旗舰(预计2026)RK368832 TOPS高端平板/笔记本/边缘大模型
次旗舰(2025)RK366816 TOPS中高端平板/边缘AI
高端(量产)RK3588/RK35766 TOPSAIoT/智能座舱/边缘计算
专用协处理器RK182XLLM推理专项3B-7B参数模型,搭配主控使用
下一代协处理器RK1860>64 TOPS预计2026,最高13B参数 [24532]

4.18.2.4. 核心评价

维度评价
技术定位端侧AI SoC领军者,NPU自研+GPU ARM授权
核心优势产品线最完整(0.5-32 TOPS),营收利润健康,端侧AI落地领先
关键短板GPU非自研(依赖ARM),无法进入数据中心/AI训练市场
与国产GPU关系端侧AI的”最后一公里”——大模型在数据中心训练、在端侧推理,瑞芯微吃的是推理红利

4.18.3. 全志科技(Allwinner)——RISC-V+Imagination路线的差异化玩家

4.18.3.1. GPU/NPU技术路线

全志科技2024-2025年最显著的技术变化是 GPU从ARM Mali转向Imagination BXM-4-64,同时NPU主要采用 芯原VIP9000架构 [24598]

芯片GPUNPU制程
A733(2024发布)Imagination BXM-4-64 MC1可选3 TOPS(芯原VIP9000)12nm
A527/T527ARM Mali-G57 MC12 TOPS22nm
A523ARM Mali-G57 MC1-2EE0.8-2 TOPS22nm
T536(2025)G2D硬件加速器(无3D GPU)最高3 TOPS22nm
A736/A737(路线图)Imagination BXM-4-64 MC24-6 TOPS12nm

架构师评注:全志的GPU转向Imagination是一个值得关注的信号。Imagination的BXM系列在能效比上优于同代ARM Mali,且授权费用可能更低。但Imagination的软件生态(驱动、工具链)远不如ARM成熟——这意味着全志需要自己投入更多资源做GPU驱动优化。全志在开源社区的”冷淡”态度(2012-2015年曾因缺乏主线Linux支持失去大量开发者 [25383])正在改善——2024-2025年已开始为A527/T527/A733发布公开datasheet和Linux SDK [24557]

维度评价
技术定位差异化路线的端侧AI SoC厂商(Imagination GPU + 芯原NPU)
核心优势GPU/NPU双线并行,RISC-V渗透全面,12nm量产突破
关键短板GPU和NPU均依赖第三方IP(非自研);软件生态建设滞后;营收规模较小(2025H1约13.37亿元)
与国产GPU关系芯原VIP9000 NPU的”样板客户”——验证了国产NPU IP的商业化路径

4.18.4. 晶晨半导体(Amlogic)——6nm先行者,NPU标配化先锋

晶晨2024-2025年最核心的突破是 6nm制程量产NPU全系标配。其在GPU方面从Bifrost(Mali-G31)向Valhall(Mali-G310)架构的跨越带来了约3倍的图形性能提升 [25018]

芯片GPUNPU制程
S905X5(2024)ARM Mali-G310 V5 @1GHz4 TOPS6nm
S905X5M(2024)ARM Mali-G310 V2 @850MHzAI-SR专用6nm
S928XARM Mali-G57 MC23.2 TOPS12nm
A311D2ARM Mali-G52 MP83.2-5 TOPS12nm
A311Y3(2026)待确认8 TOPS待确认

4.18.4.1. 关键数据

  • 2025年搭载NPU芯片出货量:>2,000万颗(同比+160%)[25007]
  • 6nm先进制程芯片出货:约 900万颗(2026年目标>3,000万)[25008]
  • 搭载NPU的商用芯片型号:>20款 [25007]

架构师评注:晶晨的AI-SR(AI超分辨率)是差异化亮点——将低分辨率视频实时提升至接近4K画质。这一功能在机顶盒和智能电视市场非常实用,但在AI训练/推理的主流叙事中容易被忽视。晶晨的6nm量产经验在国产芯片厂商中属于”第一梯队”——大多数国产GPU厂商仍在7nm挣扎,晶晨却在6nm消费级芯片上实现了千万级出货。这种工程化量产能力,如果未来能向AI加速器领域延伸,将是一大优势。

4.18.4.2. 核心评价

维度评价
技术定位6nm消费级SoC先行者,NPU标配化推动者
核心优势6nm千万级量产经验,NPU芯片出货超2000万颗,全球机顶盒市场龙头
关键短板GPU非自研,应用场景局限在音视频/机顶盒/智能显示,AI训练/数据中心零存在
与国产GPU关系端侧AI推理的”大规模验证者”——证明NPU可以在消费级芯片上大规模出货

5. 横向对比表

5.1. 厂商基本信息对比

本小节以表格形式横向对比18家国产GPU/GPGPU/AI加速器核心厂商的 成立时间、总部、创始团队背景、融资与上市状态 等基本身份信息,为后续各维度深度对比提供基础参照系。信息截至2026年6月,优先采用招股书、年报、交易所公告及公司官网等一手资料。

说明:本节聚焦”厂商基本身份信息”,产品技术细节、商业化数据、供应链风险等维度将在后续各表中展开。


5.1.1. 核心层厂商基本信息对比

公司成立时间总部创始人/实际控制人核心团队背景是否严格GPU上市/融资状态最新估值/市值(截至2026.06)
华为昇腾2018.10(产品线发布)深圳华为(任正非);徐直军为战略主导者 [25808]总架构师廖恒(清华博士,海思首席科学家);CTO周斌(原NVIDIA CUDA Fellow);海思总裁何庭波 [25934](AI加速器)华为全资(员工持股),不上市 [25965]未上市,2026年营收预计约120亿美元
海光DCU2014.10天津(注册)/北京(办公)中科曙光、中科院计算所等联合发起;总经理沙超群 [26082]脱胎于中科曙光/中科院计算所体系;前技术负责人唐志敏(龙芯首席科学家)[26083](GPGPU)688041.SH(科创板,2022.08上市)[26048]约6886亿元市值 [25759]
寒武纪2016.03北京陈天石(中科大少年班/中科院计算所博士);其兄陈云霁(中科院计算所首席科学家)[25614]脱胎于中科院计算所;核心团队平均年龄25岁起家,多人参与过龙芯CPU研发 [25742](AI加速器)688256.SH(科创板,2020.07上市)[12486]约9656亿元市值(2026.06.18)[25878]
摩尔线程2020.06(注册)/2020.10(运营)北京张建中(前NVIDIA全球副总裁/中国区总经理,持股约44.07%)[25566]7名高管中5名曾长期在NVIDIA供职;CTO张钰勃(前NVIDIA GPU架构师);联合创始人周苑(前NVIDIA市场生态总监近16年)[25586](全功能GPU)688795.SH(科创板,2025.12上市)[25577]约3364亿元市值 [25759]
壁仞科技2019.09上海张文(哈佛法学博士、前商汤总裁、华尔街背景)[25644]联席CEO李新荣(前AMD全球副总裁);CTO洪洲(前华为海思GPU负责人,30年+GPU经验);联合创始人焦国方(前高通Adreno架构师,已离职)[25650](GPGPU)6082.HK(港交所,2026.01上市)[25709]IPO前估值209亿元 [25686];港股市值超900亿港元
沐曦2020.09上海陈维良(清华微电子硕士,前AMD全球GPU SoC设计总监,主导15款GPU量产)[26161]“铁三角”:硬件CTO彭莉(AMD首位华人女Fellow)、软件CTO杨建(AMD大中华区首位Fellow);团队平均近20年GPU端到端经验 [26589](全功能GPU)688802.SH(科创板,2025.12上市)[26295]约3033亿元市值 [25759]
天数智芯2015.12上海(2020年从南京迁入)李云鹏(创始人,Oracle前研发总监);后刁石京(原工信部司长/紫光国微董事长)接任董事长(2022年被调查);现任董事长盖鲁江 [26180]芯片团队100+人来自AMD;首席科学家郑金山(前AMD GPU团队负责人);CTO吕坚平 [26344](GPGPU)9903.HK(港交所,2026.01上市)[26144]D+轮投前估值120亿元 [26132];港股市值约400亿港元
燧原科技2018.03上海赵立东(清华EE85班,前AMD计算事业部高级总监/紫光集团副总裁);联合创始人张亚林(前AMD同事)[21384]研发人员643人(占76.73%);核心团队来自AMD、NVIDIA [980](AI加速器)科创板IPO过会(2026.06.15),拟募资60亿元 [26218]最后一轮估值约202亿元 [26273]
昆仑芯2011.06(前身星云融创);2021.06独立运营北京欧阳剑(前百度首席架构师/芯片首席架构师,清华AIR工程博士)[27210]前身为百度智能芯片及架构部,在国内最早布局AI加速(超10年);百度”七剑客”之一崔珊珊参与管理 [27221](AI加速器)港股已递表(2026.01)+ 科创板辅导中(2026.05)[26859]D轮投后估值约210亿元 [26805]
瀚博半导体2018.12上海钱军(前AMD,带领量产业界首颗7nm GPU);张磊(前AMD Fellow/院士)[27559]研发团队500+人,研发人员占比80%+;核心成员来自AMD、NVIDIA、Intel,平均从业超18年 [27565](全功能GPU)已完成IPO辅导(2025.12),辅导机构中信证券 [27564]估值约105亿元(2025胡润全球独角兽榜)[27463]
景嘉微2006.04长沙曾万辉(国防科大硕士,董事长兼总经理);喻丽丽(副董事长,夫妻档)[26430]核心团队几乎清一色国防科大(NUDT)背景;军工电子基因浓厚 [26319](图形GPU,向AI拓展)300474.SZ(创业板,2016.03上市)[26314]约257亿元市值(2025年数据)[26532]
芯动科技2006武汉/珠海/北京(多中心)敖海(国家”千人计划”专家,硅谷回国);敖钢(联合创始人/副总经理)[27024]千人级研发团队;覆盖130nm到3nm全工艺节点;全球唯一同时签约台积电/三星/格芯/中芯国际等主流晶圆厂的技术伙伴 [27019](全功能GPU,IP授权+自研结合)Pre-IPO(未上市)估值约300亿元(新财富独角兽榜单)[26727]
象帝先2020.09重庆唐志敏(龙芯一号/二号首席科学家、海光信息前总裁/总经理,中科院计算所博导)[23550]核心成员来自海光、NVIDIA、AMD;平均从业经验超15年;国内少数同时具备CPU+GPU双研发经验的团队 [23668](GPU)已完成5轮融资约25亿元;2026.04签约中信建投冲刺IPO [27760]估值一度达150亿元(2024年),后经历危机估值回调
登临科技2017.11上海(注册于苏州)李建文(清华微电子所硕士,前图芯科技副总裁,GPU领域二三十年经验)[27656]联合创始人王平(清华本硕);核心团队来自图芯、S3、NVIDIA、AMD、阿里,平均20年+GPU经验 [27590](GPGPU——AI加速器)已完成多轮融资(含高通创投、中网投、光远资本等);估值约10亿美元(2022年数据)[27674]最新估值约10亿美元(2022年数据,需进一步核验)
砺算科技2021.08上海(注册于南京)宣以方(联席CEO,S3 Graphics创始成员,21年GPU开发VP经验);孔德海(联席CEO,清华毕业,S3资深);牛一心(CTO,全球首颗GPU ViRGE负责人)[26823]三位创始人均出自S3 Graphics(硅谷老牌GPU企业,比NVIDIA早4年);团队至少10+位S3资深专家;平均从业15年+ [26845](全功能GPU)累计融资约11.28亿元;东芯股份(688110)持股35.87%为最大股东;投前估值35亿元(2025.08)[26840]投前估值35亿元(2025.08)[26959]
芯瞳半导体2019.11厦门(原西安)黄虎才(西安邮电大学GPU团队核心,2009年起带队研发GPU)[27151]核心团队源自西邮GPU团队(国内最早GPU团队之一);成员来自Intel、AMD、华为海思、Mstar、RedHat、腾讯等 [26910](GPU)大胜达(603687)战略投资5.5亿元,持股22.98%;投前估值20亿元(2026.03)[27134]投前估值20亿元(2026.03)[27135]
龙芯中科(GPU/GPGPU)2008.03(公司);2001年龙芯项目启动北京胡伟武(中科大/中科院计算所博士,龙芯总设计师)[27618]中科院计算所体系;自研LoongArch指令集+GPU核(从CPU集成GPU走向独立GPU/GPGPU)688047.SH(科创板,2022.06上市)上市公司,市值随市场波动

5.1.2. 生态层厂商基本信息对比

公司成立时间总部创始人/实际控制人核心团队背景是否严格GPU上市/融资状态最新估值/市值
芯原股份2001上海戴伟民(董事长/CEO,美国总统青年研究奖获得者,前UC Santa Cruz教授)[27610]全球2000+员工;9个设计研发中心;覆盖GPU/NPU/VPU/ISP等全品类IP [27598](GPU IP供应商)688521.SH(科创板,2020.08上市)[27599]上市公司
瑞芯微2001福州励民(创始人)[27678]专注SoC芯片设计;深圳、上海、北京、杭州设分公司 [27678](SoC内置GPU/NPU)603893.SH(上交所主板,2020.02上市)[27676]上市公司
全志科技2007珠海张建辉(创始人)[27723]深圳、西安、上海、成都等地设研发中心 [27716](SoC内置GPU/NPU)300458.SZ(创业板,2015上市)[27716]上市公司
晶晨股份2003上海钟培峰(创始人)[27721]多媒体SoC芯片设计(SoC内置GPU/NPU)688099.SH(科创板,2019.08上市)上市公司

5.1.3. 特殊定位:阿里平头哥

维度详情
公司名称阿里平头哥半导体(T-Head)
成立时间2018.09(云栖大会宣布);2018.10公司注册 [26710]
总部上海张江(实际运营);杭州(注册地)[26689]
创始人/负责人包文俊(法定代表人,2025.01起);原核心人物孟建熠(副总裁,RISC-V灵魂人物)2023年离职创办知合计算 [26686]
核心团队背景由阿里达摩院芯片团队(约100人,大多来自AMD/ARM/NVIDIA/Intel)+ 收购的中天微(中国唯一自主嵌入式CPU IP Core公司)整合而成 [26712]
是否严格GPU(AI加速器+CPU IP)
上市/融资状态阿里巴巴全资子公司,未外部融资;2026.01彭博社报道阿里计划重组为员工持股独立实体并启动IPO,阿里未置评 [26673]
最新估值2025年真武PPU出货量已达数十万片,超越寒武纪,在国产GPU厂商中领先 [26615]

5.1.4. 关键观察

  1. 成立时间高度集中:18家核心厂商中,11家成立于2018-2020年的”创芯运动”窗口期,占比超过60%。这一波创业潮与中美科技博弈升级、AI大模型兴起、信创政策推动高度相关。

  2. 创始人背景三足鼎立:NVIDIA系(摩尔线程)、AMD系(沐曦、瀚博、燧原、天数智芯、登临)、中科院计算所系(寒武纪、海光、象帝先、龙芯)构成三大人才流派。其中AMD基因最为广泛,反映了AMD上海研发中心对中国GPU人才市场的深厚贡献。

  3. 上市潮集中爆发:2025.12-2026.06期间,摩尔线程(2025.12)、沐曦(2025.12)、壁仞科技(2026.01)、天数智芯(2026.01)集中上市,燧原科技(2026.06过会)、昆仑芯(港股递表+科创板辅导)紧随其后,形成国产GPU资本化密集窗口。已上市企业市值分化剧烈——寒武纪逼近万亿,而天数智芯约400亿港元,差距达20倍以上。

  4. “非GPU公司”占多数:严格意义上的”全功能GPU”(同时具备图形渲染+通用计算能力)仅有摩尔线程、沐曦、景嘉微、芯动科技、砺算科技、象帝先、瀚博半导体、芯瞳半导体8家。其余10家本质上是AI加速器/GPGPU,图形渲染能力缺失或极弱。

  5. “华为不上市”的独特生态位:昇腾是唯一不上市的头部玩家,也是唯一在营收规模上与国际巨头可比的国产方案。华为以”不上市、不融资”的独特模式,通过内部输血和政企订单维持昇腾的持续迭代,这使其不受资本市场短期情绪影响,但也缺乏外部融资的灵活性 [25965]

  6. 互联网巨头”御用芯片”格局:腾讯重仓燧原科技(第一大股东),百度孵化昆仑芯(控股57.67%),阿里自研平头哥真武。这种”各养各的芯片”格局短期内为国产AI芯片提供了稳定场景和订单,但长期可能导致生态碎片化 [26258]

  7. 估值与商业化严重倒挂:部分企业估值与实际营收差距悬殊。如寒武纪2025年营收64.97亿元,市值一度逼近万亿(市销率超150倍);砺算科技2025年营收仅2.48万元,但投前估值35亿元 [26852]。市场对”算力叙事”的容忍度远超产业真实兑现节奏。

⚠️ 不确定信息标注:①登临科技最新估值数据来源较旧(2022年约10亿美元),当前估值需进一步核验 [27674];②平头哥IPO时间表尚无官方确认,彭博社报道为匿名消息源 [26673];③昆仑芯2025年营收数据来自市场口径,官方数据待IPO招股书披露 [26861];④部分未上市公司的融资轮次和金额可能因未公开披露而不完整。

5.2. 创始团队背景对比

国产GPU/AI加速器赛道的创始团队,按技术渊源可划分为 “AMD系”、“NVIDIA系”、“中科院计算所/龙芯系”、“国防科大系”、“S3/Trident系”、“清华系”、“图芯/Vivante系”、“华为内部孵化”、“百度内部孵化”、“阿里体系” 等几大派系。每一派系都烙印着母公司的技术基因和商业思维,深刻影响着产品路线、软件生态和商业化策略。团队背景不仅决定了”从哪里来”,更在很大程度上预判了”往哪里去”。

5.2.1. 团队渊源谱系总览

                    ┌── 燧原科技 (赵立东/张亚林)
                    ├── 沐曦MetaX (陈维良/彭莉/杨建)
      AMD系 ────────┼── 瀚博半导体 (钱军/张磊)
                    ├── 天数智芯 (郑金山/孙怡乐)
                    └── 壁仞科技 (李新荣/张凌岚)

      NVIDIA系 ────┼── 摩尔线程 (张建中/周苑/张钰勃/王东)
                    └── 壁仞科技 (洪洲/杨超源)

      中科院计算所 ─┼── 寒武纪 (陈天石/陈云霁/刘少礼)
                    ├── 象帝先 (唐志敏)
                    └── 海光DCU (唐志敏早期/刘新春/杨晓君)

      国防科大系 ───┼── 景嘉微 (曾万辉/饶先宏/胡亚华)

      S3/Trident系 ─┼── 砺算科技 (宣以方/孔德海/牛一心)
                    └── 沐曦早期渊源 (陈维良/彭莉/杨建曾在Trident共事)

      图芯/Vivante ─┼── 登临科技 (李建文)
                    └── 芯原股份 (戴伟民/戴伟进收购图芯)

      华为内部 ─────┼── 昇腾 (廖恒/夏晶/周斌/党文栓)

      百度内部 ─────┼── 昆仑芯 (欧阳剑)

      阿里内部 ─────┼── 平头哥真武 (谢源/James等)

      西邮GPU团队 ──┼── 芯瞳半导体 (黄虎才/李洋/韩俊刚)

      海归/硅谷 ────┼── 芯动科技 (敖海)
                    └── 天数智芯 (李云鹏/Oracle系)

5.2.2. 核心创始团队逐家对比表

公司创始人/CEO核心技术负责人核心团队渊源团队标签团队规模(研发)
华为昇腾徐直军(战略)、何庭波(海思)廖恒(达芬奇架构总师/Fellow)、夏晶(海思芯片总架构师)、周斌(CANN架构师/前NVIDIA)华为海思+2012实验室+PMC-Sierra+NVIDIA华为自研体系+清华系数千人级(海思整体)[28232]
阿里平头哥真武戚肖宁(CEO)、谢源(CTO/ACM Fellow)核心架构师未公开中天微+达摩院+AMD/ARM/NVIDIA/Intel大厂体系+高度保密未公开
寒武纪陈天石(CEO/中科大少年班)陈云霁(首席科学家/龙芯3号主架构师)、刘少礼(指令集第一作者)中科院计算所+龙芯+中科大少年班中科院学术派”双子星”~1000+ [27848]
摩尔线程张建中(前NVIDIA全球副总裁/中国区总经理14年)张钰勃(CTO/前NVIDIA架构师)、杨上山(软件研发总经理/前NVIDIA架构师8年)NVIDIA中国团队骨干”NVIDIA中国嫡系”全流程覆盖 [27817]
壁仞科技张文(哈佛法学博士/前商汤总裁)洪洲(CTO/前NVIDIA主架构师+海思GPU负责人)、梁晓峣(首席科学家/前NVIDIA首席架构师/哈佛博士)NVIDIA+AMD+高通+华为海思”跨界猎头+豪华技术班底”~657人(83%硕博)[28072]
海光DCU孟宪棠(董事长)、沙超群(总经理/前中科曙光)潘于(前AMD芯片设计高级经理)、刘新春(前中科曙光研发中心负责人)AMD x86授权+中科曙光+中科院计算所”AMD授权+中科系”~2369人(84.5%研发)[28445]
景嘉微曾万辉(国防科大微波硕士)胡亚华(副总裁/国防科大电子系)、余圣发(高级副总裁/国防科大硕士)国防科大电子系+军工背景”国防科大系全华班”~1000+(70%研发)[28458]
天数智芯盖鲁江(现任CEO/财务背景,前普华永道德勤)郑金山(首席科学家/前AMD GPU团队)、孙怡乐(前AMD高级经理14年)AMD GPU+Oracle+前工信部(刁石京时期)“AMD GPU+软件双轮”~480人(含硅谷20人)[28537]
沐曦MetaX陈维良(前AMD全球GPU SoC设计总负责人/15款GPU量产)彭莉(CTO/前AMD首位华人女性Fellow)、杨建(CTO/前AMD大中华区首位Fellow)AMD上海研发中心核心团队+Trident”AMD中国GPU全建制团队”全建制覆盖 [28723]
燧原科技赵立东(清华EE85”梦之班”/前AMD高级总监/前紫光副总裁/前锐迪科总裁)张亚林(COO/前AMD资深芯片经理/主导Xbox One主芯片)AMD上海研发中心+清华系”AMD双子星”数百人 [28926]
砺算科技宣以方(联席CEO/前S3研发副总裁/28年GPU经验/Trio+Savage负责人)牛一心(CTO/首个S3D引擎+ViRGE负责人/30年GPU经验)S3 Graphics创始团队(成立早于NVIDIA)“S3老将,GPU活化石”平均18年+经验 [29008]
芯动科技敖海(国家千人计划/15年北美高端芯片经验)敖钢(联合创始人/副总经理)、何颖(SoC体系架构师)硅谷海归+中芯国际IP生态”IP定制+GPU新兵”覆盖130nm-3nm [29513]
芯瞳半导体黄虎才(西安邮电大学教师/2009年GPU团队)李洋(CTO/16年+GPU经验)、韩俊刚(学术奠基人/西邮教授)、蓝善清(前Intel/AMD架构师)西邮GPU团队(2009年国内最早GPU团队)“学术孵育+产业融合”12-15年深耕 [29609]
百度昆仑芯欧阳剑(百度T11首席芯片架构师/10年+AI芯片)徐宁仪(前微软亚研)、冯景辉(研发副总裁/前瑞星)百度智能芯片及架构部+微软亚研”百度内部技术孵化”数百人 [29021]
瀚博半导体钱军(前AMD高级总监/800人GPU团队/第一颗7nm GPU)张磊(前AMD Fellow/40+专利/视频AI最高技术负责人)AMD GPU+ATI(14年+)“AMD全功能GPU旗舰组合”~500人(80%研发)[29637]
象帝先唐志敏(中科院计算所博士/龙芯一号二号首席科学家/前海光总裁)核心团队来自海光/NVIDIA/AMD中科院计算所+龙芯CPU+海光CPU”国产CPU教父跨界GPU”平均15年+经验 [29697]
登临科技李建文(清华微电子/30年GPU/前图芯Vivante副总裁)王震宇(多项GPU架构专利)、杨剑(全球运营副总裁/前华为供应链副总裁)图芯科技(Vivante)+清华系”GPU IP授权老将”7个研发中心 [24002]
芯原股份(GPU IP)戴伟民(UC Berkeley博士/前终身教授)戴伟进(前图芯CEO)、GPU IP团队继承自VivanteVivante/图芯+美国硅谷”IP授权平台+图芯基因”全球布局 [28985]

5.2.3. 团队背景深度解析

5.2.3.1. AMD系:国产GPU赛道的”黄埔军校”

AMD系是国产GPU赛道最大的人才输出方,没有之一。其核心原因在于AMD上海研发中心(2006年成立)在十余年间培养了大批GPU全流程人才——从IP设计、SoC集成、板卡设计到软件驱动,形成了完整的GPU研发能力链。

公司与AMD的渊源团队级别
沐曦创始人陈维良是AMD全球GPU SoC设计总负责人,两位CTO均为AMD Fellow最高级别”全建制”团队 [28723]
瀚博钱军是AMD高级总监(800人团队),张磊是AMD Fellow(最高技术称号)旗舰级 [29630]
燧原赵立东是AMD高级总监,张亚林是AMD资深芯片经理高级别 [28926]
天数智芯郑金山带领AMD上海GPU团队,孙怡乐14年AMD高级经理中高级别 [28537]
壁仞李新荣是AMD全球副总裁/中国研发中心总经理,张凌岚是AMD PMTS高级别 [27931]
海光DCU潘于是AMD芯片设计高级经理中级别 [28442]

🔬 架构师点评:AMD系团队的核心优势在于 完整的GPU设计流程经验——他们真正做过GPU,知道从RTL到量产的全过程有哪些坑。但AMD系也有一个隐忧:AMD本身在GPU市场长期被NVIDIA压制,其软件生态(ROCm)的弱势也映射到了国产AMD系团队的产品中。AMD系能做”芯片”,但做”CUDA级生态”的能力存疑。

5.2.3.2. NVIDIA系:生态思维的”嫡系传人”

NVIDIA系团队的核心特征是 对CUDA生态的深刻理解对软件栈重要性的认知。在NVIDIA,GPU从来不只是硬件,而是一个”硬件+软件+生态”的完整系统。

公司与NVIDIA的渊源关键特征
摩尔线程张建中(NVIDIA全球副总裁/中国区总经理14年)、张钰勃(NVIDIA架构师)、杨上山(NVIDIA架构师8年)最纯正的NVIDIA基因,覆盖从市场、销售到架构的完整链条 [27817]
壁仞洪洲(NVIDIA主架构师)、梁晓峣(NVIDIA首席架构师/哈佛博士)、杨超源(NVIDIA上海总经理)技术层面有NVIDIA架构师,但创始人张文非技术出身 [27779]

🔬 架构师点评:摩尔线程的张建中是国内GPU赛道中唯一真正操盘过NVIDIA全业务链的创始人——他懂芯片、懂生态、懂市场、懂客户。这种”全栈”商业认知在国产GPU创业者中极为稀缺。但缺点是:NVIDIA的成功模式是否能在国产GPU赛道复制,关键变量不在团队,而在供应链和制程。

5.2.3.3. 中科院计算所/龙芯系:学术派的”硬核突围”

中科院计算所是中国芯片设计人才的”摇篮”,龙芯项目更是培养了一代体系结构人才。这一派的创业者普遍具有 极强的学术背景国家项目经验,但商业化能力参差不齐。

公司与中科院/龙芯的渊源独特标签
寒武纪陈云霁是龙芯3号主架构师,陈天石在中科院计算所完成博士,DianNao系列论文获ASPLOS/MICRO双最佳论文奖AI芯片学术先驱,从指令集到芯片全自研 [27834]
象帝先唐志敏是龙芯一号/二号首席科学家,龙芯课题组牵头人,曾任海光信息总裁”国产CPU教父”级人物,55岁跨界GPU [28791]
海光唐志敏早期任海光总裁,刘新春/杨晓君来自中科曙光中科系技术+AMD x86授权 [28437]

🔬 架构师点评:中科院计算所系的团队在 体系结构学术深度 上国内无出其右,寒武纪的DianNao系列论文至今仍是AI芯片领域的经典。但”学术派”的短板在于商业化落地——寒武纪成立多年至今仍在亏损,象帝先2024年甚至一度解散。学术能力≠商业能力,这是这一派系需要正视的问题。

5.2.3.4. 国防科大系:军工GPU的”独行侠”

景嘉微是国内唯一一家完全由国防科大系主导的GPU上市公司,其创始人曾万辉、胡亚华、饶先宏均毕业于国防科大,早期8位技术骨干中7位来自国防科大转业[28464]

这一派系的独特之处在于 与军工体系深度绑定——景嘉微从航空图形显控模块起步,产品先后应用于神舟飞船、军用战机等航空航天领域[28473]。国防科大系团队的特点是 稳定、低调、耐得住寂寞——三位创始人搭档超过20年,这在国产GPU赛道中独一无二。

但这也意味着景嘉微的团队基因中 缺乏商业GPU的竞争经验——他们没有做过消费级显卡,没有参与过OpenGL/DirectX/Vulkan的生态竞争,也没有应对过NVIDIA/AMD的产品迭代节奏。

5.2.3.5. S3/Trident系:GPU”活化石”

砺算科技的三位联合创始人——宣以方、孔德海、牛一心——均来自 S3 Graphics,这家公司成立于1989年,早于NVIDIA(1993年),是图形芯片领域的”活化石”级存在[29004]

人物S3年代代表作行业意义
宣以方Trio图形芯片(年销2000万颗)、Savage(野人)3D显示芯片经历过GPU从2D到3D的完整演进 [29090]
牛一心首个S3D引擎、ViRGE(全球第一代3D加速GPU)定义了早期3D加速的硬件范式 [29097]
孔德海中国第一代VLSI设计师1984年清华无线电系,跨越近40年芯片史 [29097]

🔬 架构师点评:S3系团队在图形渲染管线上的积淀极其深厚——他们经历了GPU从固定管线到可编程着色器的完整演进,对图形API(DirectX/OpenGL/Vulkan)的理解不是”学习”而是”亲历”。但S3的遗产也有局限:S3在2000年后被NVIDIA和ATI彻底边缘化,其架构理念停留在DirectX 9时代。砺算团队能否将S3的基因进化到现代GPU架构,是关键问题。

5.2.3.6. 华为昇腾:体系化作战的”国家队”

华为昇腾的团队不是”一个团队”,而是 华为海思+2012实验室+计算产品线 的体系化作战力量。其核心人物廖恒(达芬奇架构总师)是清华计算机系博士、普林斯顿博士后,曾任PMC-Sierra Fellow[28232]。CANN软件栈的核心架构师周斌是清华电子系博士,前NVIDIA高级工程师[28228]。海思芯片总架构师夏晶参与了华为二十年来重大CPU/NPU/GPU芯片的研发[28262]

华为昇腾团队的特点是 全栈覆盖——从芯片架构(廖恒/夏晶)、编译器(季宇/”天才少年”)、软件栈(周斌)、到产品定义(王晓雷)、生态建设(张熙伟/邓泰华),每个环节都有顶级人才。这种”体系化”能力是其他国产GPU公司难以复制的。

5.2.3.7. 值得关注的”跨界”创始人

国产GPU赛道中,有几位创始人并非技术出身,但凭借资源整合能力打造了豪华团队:

创始人公司原背景团队构建方式
张文壁仞科技哈佛法学博士/前商汤总裁/前私募基金”中国第一大猎头”——请哈佛师弟列名单逐一招募 [27776]
盖鲁江天数智芯普华永道/德勤/财务背景接管前任管理层(刁石京)留下的技术团队 [28536]
励民瑞芯微浙江大学经济学硕士非技术出身,但以市场嗅觉驱动产品定义 [30516]

🔬 架构师点评:非技术创始人做GPU芯片,在中国市场有其合理性。GPU创业需要的不仅是技术,还是融资、政府关系、客户获取。张文在壁仞的”猎头”能力确实打造了一支豪华技术团队,但创始人技术判断力的缺失可能在关键时刻成为风险——焦国方和徐凌杰两位联合创始人的先后离职,或与此有关[27972]

5.2.4. 团队渊源与产品路线的关系

团队渊源代表公司技术路线倾向软件生态思路商业化惯性
AMD系沐曦/燧原/瀚博/天数GPGPU/全功能GPUROCm兼容/HIP迁移数据中心/服务器
NVIDIA系摩尔线程/壁仞全功能GPU/CUDA兼容CUDA兼容/MUSA架构消费级+数据中心
中科院系寒武纪/象帝先AI专用芯片/自研架构自研指令集/框架政企/智算中心
国防科大系景嘉微军工图形GPU自研/国产OS适配军工/信创
S3系砺算图形GPUDirectX/OpenGL/Vulkan原生消费级显卡
图芯系登临/芯原GPGPU/GPGPU-AI硬件兼容CUDA边缘推理/IP授权
华为体系昇腾AI训练推理全栈自研CANN全场景
百度体系昆仑芯AI推理/XPU自研XPU架构百度生态+外部
阿里体系平头哥真武GPGPU自研+ROCm阿里云内部

5.2.5. 关键发现与洞察

1. 创始团队”出身决定路线”现象极为明显

AMD系普遍走GPGPU/ROCm兼容路线,NVIDIA系走CUDA兼容路线,中科院系走自研架构路线,S3系走图形GPU路线。这不是巧合,而是”你只在做过的事情上擅长”的体现。中国GPU赛道的技术路线分化,本质上就是创始团队背景的分化。

2. “全建制团队”稀缺,仅沐曦和摩尔线程可称此列

“全建制”意味着团队覆盖GPU架构定义、IP设计、SoC集成、物理设计、驱动开发、软件框架的全流程。沐曦的”三剑客”(陈维良/彭莉/杨建)和摩尔线程的NVIDIA系班底,是国内仅有的两支真正具备 GPU全流程量产经验 的团队。其他团队或多或少存在”偏科”——有的缺图形驱动经验,有的缺芯片量产经验,有的缺软件生态人才。

3. 华为昇腾是唯一”不依赖外部创始人”的体系

华为昇腾的团队来自华为内部体系(海思+2012实验室),其人才的招聘、培养、晋升均在华为体系内完成。这意味着昇腾的团队稳定性和资源调动能力远超其他创业公司,但也意味着其文化和技术路线受华为体系约束。

4. 学术派创业的”商业化魔咒”

寒武纪和象帝先的创始人均来自中科院计算所,学术成就极高但商业化表现不佳。寒武纪上市多年仍亏损,象帝先2024年一度解散。这提示:芯片架构的学术创新与芯片的商业成功之间存在巨大的鸿沟,后者需要的是工程化能力、供应链管理、客户获取和生态运营,而非论文发表。

5. 创始人更迭风险

天数智芯从李云鹏(Oracle背景)→刁石京(工信部/紫光背景)→盖鲁江(财务背景),管理层三度更迭[28534]。壁仞科技六位联合创始人中已有两位(焦国方、徐凌杰)离职[27972]。创始团队的稳定性直接关系到芯片产品的连续性——GPU芯片的研发周期通常3-5年,管理层动荡对产品迭代的打击可能是致命的。

6. 90%的国产GPU创始团队都有”外企”背景

无论是AMD、NVIDIA、S3、图芯、高通还是Intel,国产GPU赛道几乎所有创始人都曾在国际芯片巨头工作过。这确保了技术能力的起点,但也意味着:这些团队熟悉的是”如何在外企体系内做芯片”,而非”如何在制裁环境下从零构建芯片公司”。后者的能力,目前只有华为昇腾真正具备。

5.2.6. 团队背景总结表

维度最强团队最有风险团队说明
技术深度寒武纪(DianNao学术开创者)、华为昇腾(廖恒/达芬奇架构)部分跨界创始人(非技术背景)学术深度≠商业成功
工程经验沐曦(15款GPU量产)、砺算(15代GPU迭代)芯瞳、天数智芯(量产经验相对有限)量产是GPU最难的环节
商业能力摩尔线程(张建中NVIDIA全业务链)、华为昇腾(体系化销售)寒武纪(持续亏损)、象帝先(一度解散)商业能力决定生死
团队稳定性景嘉微(20年+搭档)、华为昇腾(体系内)天数智芯(三度换帅)、壁仞(联合创始人离职)GPU是长跑,稳定很重要
融资能力壁仞(张文猎头+资本运作)、摩尔线程(品牌效应)象帝先(曾资金链断裂)资本是GPU的燃料
供应链安全华为昇腾(自研+国内产线)、海光(AMD授权但受制裁)AMD系(代工依赖台积电)供应链是最大变量

⚠️ 待进一步核验信息

  • 阿里平头哥真武芯片的具体设计负责人和架构师姓名未公开
  • 芯瞳半导体部分早期成员的海外大厂任职细节需进一步核实
  • 砺算科技承接中天恒星技术成果的具体范围和知识产权归属
  • 部分公司(如天数智芯、登临)核心成员的股权结构未公开披露

5.3. 产品系列与目标市场对比

对比芯片型号、制程、算力、目标场景(训练/推理/图形/HPC)

本小节聚焦国产GPU/GPGPU/AI加速器厂商的核心芯片产品,从芯片型号、制程工艺、多精度算力、显存配置、功耗及目标场景进行系统对比,为读者提供”一张表看懂各家产品力”的快速参考。

架构师注:芯片算力数据需区分”纸面峰值”与”实际可用算力”。同一芯片在不同精度(FP32/FP16/INT8/FP64)下算力差异可达数倍至数十倍,且受显存带宽、散热、软件栈效率等因素制约。以下数据均来自公开资料,”—“表示公开资料中未找到可信数据,非意味着该芯片不支持该精度

5.3.1. 表3:产品系列与目标市场对比(主力量产芯片)

公司芯片型号制程FP32 (TFLOPS)FP16/BF16 (TFLOPS)INT8 (TOPS)FP64 (TFLOPS)显存显存带宽功耗(W)训练推理图形HPC是否全功能GPU
华为昇腾Ascend 910B7nm (SMIC N+1)~94~320~64064GB HBM2e~400 GB/s310否(AI加速器)
华为昇腾Ascend 910C7nm (双Die合封)~800~1,600128GB HBM33.2 TB/s~600否(AI加速器)
寒武纪思元590 (MLU590)7nm (SMIC)~80256–34551280GB HBM2e~2 TB/s250否(AI加速器)
摩尔线程MTT S40007nm25100200~3248GB GDDR6768 GB/s450⚠️是(全功能GPU)
摩尔线程MTT S50007nm+80GB1.6 TB/s⚠️是(全功能GPU)
海光DCU深算二号 (DCU 8200)7nm+~90180–256~1,000~10.296GB HBM31.5 TB/s350⚠️否(GPGPU)
海光DCU深算三号 (BW1000)5nm604803064GB HBM2e1.6 TB/s300否(GPGPU)
壁仞科技BR1007nm (TSMC, Chiplet)2561,0242,04864GB HBM2E550否(AI加速器)
壁仞科技BR1047nm (TSMC)1285121,02432GB HBM2E300否(AI加速器)
景嘉微JM11未披露(推测14nm/7nm)612最大64GB DDR4⚠️是(全功能GPU)
天数智芯天垓1007nm (CoWoS)~2414732GB HBM21.2 TB/s250⚠️否(GPGPU)
天数智芯智铠1007nm249638432GB HBM2E800 GB/s150否(推理专用)
沐曦MXC500 (曦云C500)7nm15–18240–280480–560HBM否(GPGPU)
沐曦MXN100 (曦思N100)7nm80160HBM2E否(推理专用)
沐曦C600 (曦云C600)国产先进制程144GB HBM3e3.6 TB/s否(GPGPU)
燧原科技邃思2.0 (云燧T20/T21)12nm (GF)40160 (BF16/FP16)32064GB HBM2E1.8 TB/s⚠️否(AI加速器)
燧原科技邃思2.5 (云燧i20)12nm (GF)32128 (BF16/FP16)25616GB HBM2e819 GB/s否(推理专用)
燧原科技邃思400 (燧原L600)未公开否(训推一体)
百度昆仑芯R300 (昆仑芯2代)7nm (三星)32128256GDDR6512 GB/s≤150⚠️否(AI加速器)
百度昆仑芯P800 (昆仑芯3代)7nm345~51264GB~400否(AI加速器)
阿里平头哥含光80012nm (TSMC)820276否(推理专用)
阿里平头哥真武810E7nm~22.6~362 (BF16)96GB HBM2e400否(AI加速器)
阿里平头哥真武M8907nm600144GB HBM3否(AI加速器)
砺算科技7G100 (LX 7G100)6nm (TSMC)2412GB GDDR6225⚠️是(全功能GPU)
芯动科技风华3号全国产78112GB+1.8 TB/s⚠️⚠️是(全功能GPU)
瀚博半导体SG100 (VA1L/VA12)7nm72–160200–51275–250是(全功能GPU)
象帝先天钧一号12nm41616GB GDDR6256 GB/s是(全功能GPU)
象帝先伏羲架构5nm16012GB HBM2⚠️⚠️是(全功能GPU)
登临科技Goldwasser II (KS系列)12nm/更先进最高~1,024最高128GB15–150⚠️否(AI加速器)
芯瞳半导体CQ204012nm1.310⚠️是(全功能GPU)

符号说明:✅ = 核心目标场景;⚠️ = 可覆盖但非主攻方向;❌ = 不支持或严重不适用;”—” = 公开资料未查到可信数据

制程标注:TSMC = 台积电;SMIC = 中芯国际;GF = 格芯(GlobalFoundries);“全国产” = 国产供应链

5.3.2. 表3b:下一代/规划中芯片对比

公司芯片型号制程预期FP16算力关键升级点预期量产状态
华为昇腾950PR自研HBM~500 TFLOPS自研HBM HiBL 1.0、FP8原生2026 Q1已发布路线图
华为昇腾950DT自研HBM~500 TFLOPS自研HBM HiZQ 2.0、FP8/MXFP42026 Q4已发布路线图
寒武纪思元6905nm (等效7nm)H100的80-85%Chiplet异构集成2026年已送测
摩尔线程华山/庐山 (花港架构)未公开FP4-FP64全精度、十万卡集群2026年已发布,2026量产
沐曦C700国产先进制程接近H100FP4支持、全精度2026 Q2流片在研
昆仑芯M100国产制程MoE推理优化、极致性价比2026年初已发布路线图
昆仑芯M300国产制程超大规模多模态训推2027年初已发布路线图
阿里平头哥真武V900未公开M890的3倍216GB显存、1200 GB/s互联2027 Q3已发布路线图
芯瞳GB30007/10nm (SMIC)34–106 TFLOPSDX12、光追、PCIe 5.02026 Q3流片在研

5.3.3. 目标市场矩阵

下表按芯片厂商在四大核心场景(AI训练、AI推理、图形渲染、HPC科学计算)的覆盖能力进行分类:

场景分类核心厂商(主力出货)追赶厂商(已落地但规模有限)规划中厂商
大模型训练华为昇腾910B/C、寒武纪思元590、海光深算二号/三号、阿里真武810E/M890天数智芯天垓100、摩尔线程S5000、沐曦MXC500、壁仞BR100/BR104、昆仑芯P800沐曦C700、昆仑芯M300
大模型推理华为昇腾910B、寒武纪思元590、阿里真武810E、昆仑芯P800、天数智芯智铠100燧原S60(邃思320)、瀚博VA12、登临Goldwasser II、沐曦MXN100昆仑芯M100
图形渲染(桌面/工作站)景嘉微JM11/JM1100、砺算7G100摩尔线程S3000/S4000、芯动风华3号、瀚博SG100摩尔线程庐山(花港)、象帝先伏羲
HPC科学计算海光深算三号(BW1000)(FP64=30TFLOPS,国产最强)海光深算二号华为昇腾(通过集群弥补单卡FP64不足)
云游戏/云桌面/虚拟化摩尔线程S3000/S4000、景嘉微JM11瀚博SG100、芯动风华3号芯瞳GB3000
边缘AI/端侧推理登临Goldwasser UL、瀚博VE1、天数智芯彤央昆仑芯R300、燧原i20景嘉微CH37系列

架构师洞察:从上表可清晰看出,真正同时覆盖”AI训练+AI推理+图形渲染+HPC”四大场景的厂商几乎不存在。最接近”全能型”的是 摩尔线程(AI训练+推理+图形渲染,HPC尚弱)和 海光DCU(AI训练+推理+HPC,但无图形渲染能力)。华为昇腾在AI训练和推理领域最强,但完全不做图形渲染。这反映出国产GPU赛道的深层现实:“全功能GPU”是一个极高的技术门槛,大多数厂商选择在AI加速器这一细分赛道深耕

5.3.4. 按技术路线分类

技术路线代表厂商核心特征优点风险
自研AI加速器(DSA/ASIC)华为昇腾、寒武纪、燧原、昆仑芯、阿里平头哥自研架构+自研软件栈,不兼容CUDA软硬件深度协同、针对AI极致优化生态封闭、迁移成本高、开发者少
GPGPU(兼容CUDA/ROCm)海光DCU、天数智芯、沐曦、壁仞兼容CUDA/ROCm生态,类GPU架构迁移成本低、复用现有AI软件栈架构人才稀缺、与NVIDIA专利边界模糊
全功能GPU(图形+AI)摩尔线程、景嘉微、砺算、芯动、瀚博、象帝先、芯瞳同时支持图形API(DX/Vulkan/OpenGL)和AI计算场景覆盖最广、可进可退技术难度最高、驱动生态最难做
GPU IP授权芯原股份提供GPU IP,不直接造芯片商业模式轻、覆盖面广不掌控最终产品、单客户价值低
SoC内置GPU/NPU瑞芯微、全志、晶晨端侧芯片集成GPU+NPU出货量大、生态成熟算力有限、无法进入数据中心
CPU厂商自研GPU飞腾、龙芯、兆芯集成显卡或桌面GPU信创生态绑定性能远落后独立GPU

5.3.5. 关键发现与架构师评注

5.3.5.1. 制程节点的”虚假繁荣”

国产GPU芯片标注的制程(7nm、5nm等)需要仔细甄别:

  • 台积电7nm(壁仞BR100/BR104、摩尔线程S3000/S4000)是真正的FinFET 7nm,晶体管密度约96 MTr/mm²;
  • 中芯国际N+1/N+2”7nm”(华为昇腾910B/C、寒武纪思元590)是等效7nm DUV工艺,晶体管密度约80-90 MTr/mm²,实际性能介于台积电7nm和10nm之间;
  • 格芯12nm(燧原邃思系列)是14nm FinFET的改良版,晶体管密度远低于真7nm。燧原通过超大芯片面积(57.5mm×57.5mm)和2.5D封装在12nm上实现了接近7nm的算力,但这种”以面积换算力”的策略在良率和成本上存在天花板 [34370]

5.3.5.2. FP16算力排名(量产芯片)

壁仞BR100: 1,024 TFLOPS (BF16)  ← 纸面巅峰,但量产受制裁影响
华为910C:   800 TFLOPS           ← 国产实际可用最强
阿里M890:   600 TFLOPS           ← 2026年5月刚发布
海光BW1000: 480 TFLOPS           ← 5nm工艺,HPC双精度最强
寒武纪590:  256-345 TFLOPS       ← 2025年批量落地
昆仑芯P800: 345 TFLOPS           ← 实测确认
沐曦C500:   240-280 TFLOPS       ← 对标A100约75%
燧原邃思2.0: 160 TFLOPS          ← 12nm工艺的天花板
天数天垓100: 147 TFLOPS          ← 国内首款7nm通用GPU

架构师注:BR100的1,024 TFLOPS是BF16峰值,且受2023年10月实体清单制裁后,台积电停止代工,后续量产状态不明 [32937]。华为910C通过双Die合封方案实现800 TFLOPS,是当前国产实际可用最强AI算力芯片 [30656]

5.3.5.3. 图形渲染能力的”分水岭”

国产GPU中真正具备实用图形渲染能力的厂商寥寥无几:

图形能力分级厂商当前水平对标
消费级游戏可用砺算科技DX12 + WHQL认证,100+游戏适配,3DMark≈RTX 4060≈NVIDIA RTX 4060
桌面/工作站可用景嘉微JM11: DX11 + Vulkan 1.3 + OpenGL 4.6, 云桌面实测≈NVIDIA RTX 2060-3060
云游戏/虚拟化摩尔线程S4000: vGPU+视频编解码,Top 50游戏100%兼容≈NVIDIA A100级别图形
入门级桌面芯动科技风华3号: DX12 + 硬件光追 + 8K渲染待实测验证
基本不可用其余所有AI加速器厂商无图形API支持

架构师注:砺算科技2026年4月获得微软WHQL认证,是全球第四家(NVIDIA/AMD/Intel之后)、中国首家获此认证的GPU厂商 [32662]。这意味着砺算的图形驱动通过了微软的严格稳定性测试,是国产图形GPU的重要里程碑。但注意:砺算芯片由 台积电6nm代工,供应链存在地缘风险 [32649]

5.3.5.4. HPC场景的”孤独王者”

在FP64双精度这一HPC核心指标上,海光DCU深算三号(BW1000)的30 TFLOPS 是国产芯片中唯一可与NVIDIA H100(30-34 TFLOPS)正面竞争的 [31225]。其余国产芯片的FP64算力要么未公开(意味着极低),要么通过软件模拟(性能损失巨大)。这是海光DCU不可替代的差异化优势——也是其被定位为”中国版AMD Instinct”的核心原因。

5.3.5.5. 全功能GPU路线的”少数派”

按照严格定义(同时支持AI训练推理+图形渲染API+通用计算),当前国产厂商中真正走”全功能GPU”路线的仅 摩尔线程、砺算科技、景嘉微、芯动科技、瀚博半导体、象帝先、芯瞳半导体 七家。其余厂商均为”AI加速器”或”GPGPU”,不包含图形渲染管线。这七家中,目前仅有摩尔线程和砺算科技的产品性能进入”实用级”(可对标NVIDIA中端消费卡),其余仍在入门级水平。

5.3.5.6. 待进一步核验的信息

  • 壁仞BR100在2023年实体清单制裁后的实际量产状态和代工来源 [32939]
  • 燧原科技邃思320和邃思400的完整算力参数(FP16/INT8/FP32)——科创板IPO文件可能包含但未全文公开 [34448]
  • 华为昇腾910C的FP32具体数值——官方未单独披露 [30798]
  • 寒武纪思元590的FP16算力在256/314/345 TFLOPS之间存在多个来源不一致 [30580]
  • 海光深算三号BW1000是否确实无FP8原生硬件单元 [31231]
  • 象帝先伏羲架构5nm芯片的代工厂——5nm国产化尚存疑问

5.3.6. 小结

中国国产GPU/AI加速器行业已形成 “一超(华为昇腾)+ 多强(寒武纪、海光DCU、阿里平头哥)+ 群狼(摩尔线程、壁仞、沐曦、天数智芯、燧原、昆仑芯等)+ 图形GPU专项梯队(砺算、景嘉微、芯动等)” 的竞争格局。

从产品系列完整度来看,华为昇腾和摩尔线程 分别代表了”AI加速器”和”全功能GPU”两条路线的最高水平。从目标市场覆盖来看,没有任何一家厂商能同时覆盖所有场景——AI训练最强的是华为昇腾和寒武纪,HPC最强的是海光DCU,图形渲染最强的是砺算科技和景嘉微,而推理性价比最高的可能是昆仑芯P800和登临Goldwasser II。

这种”各有所长、难以通吃”的格局,意味着未来3-5年中国算力市场的国产替代将以 “混合部署、多芯协同” 为主要模式,而非单一厂商的一家独大。

5.4. 芯片架构与制程对比

对比核心架构设计、微架构、制造工艺、封装技术

本小节从 核心架构设计(指令集/微架构)、制造工艺(制程节点/代工厂)、封装技术(2.5D/3D/Chiplet/Interposer) 三个维度,对18家国产GPU/GPGPU/AI加速器厂商进行横向对比。这是评价芯片”硬实力”最核心的三根支柱,也是后续训练/推理/图形/HPC能力差异的底层根源。


5.4.1. 核心架构与制程总览表

厂商代表芯片架构名称架构类型指令集制程节点代工厂晶体管数Die面积
华为昇腾910B / 910C达芬奇(Da Vinci)AI加速器(DSA)自研Da Vinci ISA7nm(N+1→N+2)SMIC(DUV)910C ≈530亿910B 665.6 mm²
海光DCU深算二号CDNA×自研GPGPU(SIMT)AMD CDNA派生+自研7nm / 7nm+台积电/SMIC(推测)未公开未公开
寒武纪思元590MLUarch05AI加速器(DSA)自研MLU ISA7nm(N+2)SMIC(DUV)583亿≈800 mm²
摩尔线程S4000(曲院)MUSA 3rd Gen全功能GPU自研MUSA ISA7nm(推测)台积电→SMIC未公开未公开
壁仞科技BR100壁立仞(BiLiren)GPGPU(SIMT)自研ISA7nmTSMC N7770亿1074 mm²(双die)
沐曦C600(曦云)XCORE 1.5GPGPU自研ISA7nm / 12nm(国产版)台积电→SMIC未公开未公开
天数智芯天垓100第一代GPGPUGPGPU(SIMT)自研ISA7nm台积电(推测)240亿未公开
燧原科技邃思400(L600)GCU-CARA 4thAI加速器(DSA)自研GCU ISA7nm(L600)SMIC(L600),格芯12nm(早期)未公开邃思2.0 57.5×57.5mm封装
昆仑芯R200/R300(2代)XPU-RAI加速器(DSA)自研XPU ISA7nm台积电(推测)未公开未公开
瀚博半导体SV102DSA(自研)AI加速器(DSA)自研ISA7nm台积电(推测)未公开未公开
景嘉微JM9系列天枢图形GPU(统一渲染)自研ISA14nm境内代工厂(推测)未公开未公开
芯动科技风华3号自研GPU内核全功能GPU自研+香山RISC-V主控12nm(风华1/2)→未公开(风华3)境内代工厂未公开未公开
象帝先伏羲A0伏羲(自研+IMG DXD)图形GPU自研+IMG DXD5nm(伏羲)未公开未公开未公开
登临科技GoldwasserGPU+(Minsky)GPGPU——AI加速器自研ISA12nm台积电/格芯(推测)未公开未公开
砺算科技7G100TrueGPU天图全功能GPU自研ISA6nm(TSMC N6)台积电未公开未公开
芯瞳半导体GB2062/CQ2040启明图形GPU(统一渲染)自研ISA12nm境内代工厂未公开未公开
阿里平头哥真武810E自研并行计算架构GPGPU自研ISA7nm台积电→国产7nm未公开未公开

说明:部分厂商(尤其是初创公司)未公开披露晶体管数量、芯片面积等底层物理参数。“推测”标注表示基于产业链报道和行业惯例的合理推断。代工厂信息在实体清单制裁后,部分公司已转向国产代工方案,原台积电流片信息可能仅适用于早期批次。


5.4.2. 微架构深度对比

5.4.2.1. 计算核心微架构

芯片的”灵魂”在于计算核心的微架构设计——这决定了算力密度、能效比和编程灵活性。国产厂商在核心微架构上呈现出三条泾渭分明的路线:

路线一:类GPU的SIMT/SIMD多核架构(GPGPU路线)

这条路线最接近NVIDIA/AMD的GPU设计哲学,采用大规模并行线程阵列+统一调度器。

厂商核心微架构特征关键参数
海光DCUCU(Compute Unit)× N,每CU含4个SIMD,每SIMD 10个Wavefront×64线程。L1 Cache与共享内存 物理分离(不同于NVIDIA的统一L1/Shared Memory设计)[35295]深算一号:60 CU / 3840~4096核心;深算二号:CU数未公开
壁仞科技SPC(Streaming Processor Cluster)×32,每SPC含16 EU。每EU含16个V-Core(SIMT通用处理器)+ 1个T-Core(脉动3D GEMM张量引擎)。T-Core每时钟矩阵吞吐量是NVIDIA Hopper SM子分区的 4倍[35403]BR100:32 SPC,总计8192 V-Core + 512 T-Core,L2 256MB
摩尔线程MUSA核心×4096 + 128张量核心(S3000)。第四代”平湖”架构:8192着色核心+512张量核心。第五代”花港”架构:算力密度提升50%,支持FP4-FP64全精度 [34964]S4000:8192向量核心+128张量核心;S5000:8192着色核心+512张量核心
沐曦XCORE 1.0/1.5:标量+矢量+张量三单元混合计算。XCORE 1.5新增FP8 Tensor及Tensor转置指令 [35571]C500:XCORE 1.0;C600:XCORE 1.5,FP8 1000 TFLOPS
天数智芯全自研SIMT架构,支持标量/矢量/张量运算。天垓Gen 2引入”天枢”架构,注意力机制算力有效利用率>90% [36000]天垓100:240亿晶体管,FP16 ~147 TFLOPS

路线二:DSA(领域专用架构)AI加速器路线

这条路线放弃了GPU的通用性和图形渲染能力,专为AI矩阵运算深度定制,类似Google TPU或NVIDIA Tensor Core的”极致放大版”。

厂商核心微架构特征关键参数
华为昇腾Da Vinci核心:3D Cube矩阵运算单元(16×16×16 MAC/cycle)+ Vector单元+ Scalar单元。910B:25个”新达芬奇”核心,4×6 Mesh NoC互联,1024-bit位宽运行在2GHz [34746]910B:25核,FP16 320 TFLOPS;910C:双die合封,FP16 ≈800 TFLOPS
寒武纪MLU Core×N,每4个MLU Core组成Cluster(含1个Memory Core+共享SRAM)。MTP(Multi Tensor Processor)子系统。7芯粒Chiplet,NoC互联延迟<5ns [34504]思元590:7芯粒,583亿晶体管,FP16 256 TFLOPS
燧原科技GCU-CARA:指令驱动+可编程数据流融合。三大引擎:计算引擎(张量/矢量/标量)、数据引擎(可编程共享缓存调度+异步数据加载+硬件指令预取)、互联引擎(GCU-LARE)[36140]邃思2.0:FP32 40 TFLOPS,TF32 160 TFLOPS;邃思400:FP8原生
昆仑芯XPU-R异构双引擎:SDNN(专用张量引擎)+ XPU Cluster(通用标量/矢量计算单元),通过NoC互联(~256GB/s),统一调度器动态分配 [36240]昆仑芯2代:INT8 256 TOPS,FP16 128 TFLOPS
瀚博半导体DSA自研架构,内部AI核细节未公开。强调”相比GPU在特定AI推理负载上3-10倍能效提升” [36541]SV102:INT8 ≥200 TOPS,75W

路线三:图形渲染GPU(统一渲染架构)路线

这条路线以图形渲染为核心,逐步向AI计算拓展,对标NVIDIA GeForce/AMD Radeon。

厂商核心微架构特征关键参数
景嘉微自研”天枢”架构:多核PCU(可编程计算单元)+ 统一内存架构(UMA)。业界主流统一渲染架构,从JM5400/JM7200固定管线升级为可编程Shader [35918]JM9系列:FP32 1.5~8 TFLOPS(设计目标),14nm
砺算科技TrueGPU天图架构:48 CU / 192 TMU / 96 ROP。支持FP32/INT32双发射、智能乱序渲染(效率+50%)、矩阵内存布局优化(显存效率+40%)、NRSS超分技术 [37181]7G100:48 CU,FP32 24 TFLOPS,FP16 120 TFLOPS,6nm
芯动科技风华1号基于Imagination BXT架构授权;风华3号转向自研GPU内核+香山RISC-V主控(南湖核),全国产底层设计 [38388]风华3号:FP32 78 TFLOPS,单卡112GB+显存,支持DX12/Vulkan 1.2/光追
象帝先第一代盘古架构(自研,2048核心);第二代伏羲架构(基于Imagination DXD架构,全球唯一量产的IMG DXD产品)[36626]伏羲A0:FP32 160 TFLOPS,12GB HBM2,5nm,支持光追
芯瞳半导体自研”启明”统一渲染架构:1152个流处理器,高度可扩展互联结构 [37737]GB2062:FP32 1.3 TFLOPS,12nm,10W超低功耗

路线四:异构融合架构(GPU+ / 混合路线)

厂商核心微架构特征关键参数
登临科技GPU+(Minsky架构):基于GPGPU的软件定义片内异构计算架构。硬件兼容CUDA/OpenCL,通过架构创新在相同工艺下实现3-10倍能效优势 [38322]Goldwasser-XL:INT8 512 TOPS,12nm
阿里平头哥真武系列:自研并行计算架构(GPGPU路线),自研ICN片间互联,搭配自研ICN Switch 1.0互联芯片 [38278]真武810E:96GB HBM2e,FP16(未公开),700GB/s互联;M890:144GB,800GB/s互联

5.4.2.2. 架构哲学差异:一个关键判断

资深架构师洞察:国产厂商的架构选择本质上是在”通用性 vs 效率”、“兼容性 vs 自主性”、“图形 vs AI”这三对矛盾中做取舍。全功能GPU(砺算、摩尔线程、芯动、象帝先)不仅要做好AI计算,还要啃下图形渲染这块”硬骨头”——图形API兼容、像素管线、纹理单元、光栅化、光线追踪,每一项都是需要长期积累的工程难题。相比之下,AI专用加速器(华为昇腾、寒武纪、燧原、昆仑芯)可以在AI矩阵运算上做到极致优化,但面对需要图形渲染的场景(数字孪生、云游戏、专业可视化)则完全无能为力。GPGPU路线(海光、壁仞、沐曦、天数智芯、登临)在中间地带,既能做AI计算,又有一定的通用计算灵活性,但距离真正的”插上显示器就能打游戏”还有很大距离。


5.4.3. 制程工艺深度对比

制程是芯片竞争力的”物理天花板”。更先进的制程意味着更高的晶体管密度、更低的功耗、更小的芯片面积——三者缺一不可。

5.4.3.1. 制程节点分布全景

制程节点厂商及代表产品代工厂备注
6nm砺算科技 7G100台积电 N6国产GPU中唯一已流片量产的6nm级产品 [37169]
7nm(包括7nm+)华为昇腾910B/C、海光DCU深算一号/二号、寒武纪思元590、摩尔线程S3000/S4000(推测)、壁仞BR100/BR104、沐曦C500/C550/C600、天数智芯天垓100/智铠100、燧原L600、昆仑芯2代、瀚博SV102、阿里平头哥真武810E台积电(部分已断供)、SMIC N+1/N+2(DUV)国产算力芯片的”主战场”节点
12nm登临Goldwasser、芯动风华1号/2号(风华3号制程未公开)、燧原邃思2.0(T20/T21)、芯瞳GB2062/CQ2040台积电/格芯/境内代工厂成熟节点,成本优、产能充裕,但能效比上限明显
14nm景嘉微 JM9系列境内代工厂(推测)落后国际主流约3-4代
5nm象帝先 伏羲A0(已流片)、华为昇腾910D(传闻)未公开(5nm需台积电/三星,存在制裁风险)国内仅有的两款触及5nm的GPU产品

5.4.3.2. 制程断代:最核心的瓶颈

关键事实:美国2022年10月7日出口管制新规后,台积电/三星对中国大陆先进制程代工全面受限。目前国产GPU厂商的制程来源分为三类:

代工路线代表厂商优势风险
台积电库存/早期流片壁仞BR100、摩尔线程(早期)、砺算7G100工艺成熟,良率高,性能有保障实体清单后无法补充,库存耗尽即”断粮”
SMIC N+1/N+2(DUV 7nm)华为昇腾910B/C、寒武纪思元590可量产,国产化率高良率低(~20-50%),成本高,晶体管密度远低于台积电N7 [35181]
境内成熟制程(12nm/14nm)登临、景嘉微、芯瞳、芯动(早期)产能充裕,不受制裁影响性能天花板低,难以参与高端AI训练竞争

资深架构师洞察:SMIC的N+1/N+2(等效7nm)是用DUV光刻机通过多重曝光实现的”伪7nm”——晶体管密度远低于台积电的”真7nm”EUV工艺。根据TechInsights的拆解,SMIC版910B的Virtuvian计算芯粒面积(665.6 mm²)比台积电原版910的Virtuvian(456.25 mm²)大了约46% [35218]。这意味着同样的芯片在SMIC工艺下面积更大、功耗更高、性能更低。这就是为什么华为910C需要用两颗die合封来追赶H100的单die性能——不是架构不想创新,而是制程拖了后腿。😤

5.4.3.3. 制程代际差距量化

对比维度国产最优水平NVIDIA当前水平代际差距
量产制程SMIC N+2(≈7nm DUV)TSMC N4P(4nm EUV)约2-3代
晶体管密度SMIC N+2约65-80 MTr/mm²(推测)TSMC N4约180 MTr/mm²约2-3倍差距
已流片但未量产制程砺算6nm(台积电)、象帝先5nm(来源不明)TSMC N3E(3nm,Blackwell B200)约2代
产能规模SMIC 7nm以下约45k wspm(2025)TSMC先进制程约150k+ wspm约3-4倍差距 [34922]

5.4.4. 封装技术深度对比

先进封装是国产GPU实现”弯道超车”的关键技术路径——当单die制程受限时,通过Chiplet(芯粒)技术将多个小芯片合封,可以在一定程度上弥补制程差距。

5.4.4.1. 封装技术全景

封装技术等级技术特征采用厂商对标国际方案
2.5D硅中介层(Interposer)芯片+HBM通过硅中介层高密度互联华为昇腾、海光DCU、壁仞BR100、天数智芯、燧原邃思2.0、阿里平头哥真武、沐曦C600(部分)台积电CoWoS
双die合封(有机基板桥接)两颗独立die分别放在各自Interposer上,通过有机基板互联华为昇腾910CNVIDIA B200-like,但带宽更低
Chiplet(多芯粒NoC互联)多个功能芯粒通过片内NoC互联寒武纪思元590(7芯粒)、壁仞BR100(2芯粒)AMD MI300X(8芯粒)
Innolink Chiplet(国产标准)芯动自研国产Chiplet封装标准芯动科技(风华1号)UCIe
标准FC-BGA封装无硅中介层,无HBM,倒装芯片BGA砺算7G100、景嘉微JM9、芯瞳、登临Goldwasser、昆仑芯2代标准GPU/CPU封装
MXM嵌入式模块紧凑型板卡封装芯瞳(CQ2040)、登临(Goldwasser-UL MXM)NVIDIA Jetson、嵌入式GPU
厂商封装方案封装供应商HBM集成关键特征
华为昇腾910B2.5D:1×Virtuvian die + 4×HBM + 2×Dummy die + 硅中介层 + 有机基板盛合晶微(前中芯长电)HBM2e 64GB(B3版HBM3e)中国大陆唯一量产2.5D芯粒的封测企业 [34943]
华为昇腾910C双die合封:2×910B die → 各自硅中介层 → 有机基板桥接盛合晶微HBM2e 128GB类似NVIDIA B200方案,但互联带宽更低 [34945]
海光DCU2.5D硅中介层:DCU die + HBM → Interposer → 有机基板国产供应链(已整合)HBM2/HBM2e/HBM3已完成完整国产封装供应链整合 [35268]
壁仞BR100TSMC 2.5D CoWoS:2×Compute die(537mm²×2)+ 4×HBM2e → 硅中介层。Die-to-Die 896 GB/s台积电HBM2e 64GB,1.6 TB/s实体清单后台积电断供,后续封装方案需切换 [35360]
寒武纪思元5907芯粒Chiplet + NoC片内互联 + HBM2e 2.5D封装未公开(推测国产供应链)HBM2e 96GB第二代Chiplet方案,NoC延迟<5ns [34883]
天数智芯2.5D CoWoS:GPGPU die + HBM2/HBM2e → 硅中介层未公开(推测台积电→国产)HBM2 32GB(天垓100)/ HBM2e 32GB(智铠100)国内首款7nm 2.5D CoWoS GPGPU [35784]
燧原科技邃思2.0:2.5D先进封装,1主芯片+4颗HBM2E+其他,共9颗芯片合封。封装尺寸57.5×57.5mm(3306mm²)日月光(ASE)HBM2e 64GB,1.8 TB/s一度是中国最大AI计算芯片封装 [36148]
邃思400(L600):CoWoS封装长电科技(JCET)HBM3e 144GB,3.6 TB/s封装供应商切换至国产 [36430]
沐曦C600国产Chiplet先进封装未公开(推测长电科技等)HBM3e 144GB,>3.35 TB/s全流程国产化,良率突破92% [35484]
阿里平头哥真武2.5D封装未公开HBM2e 96GB(810E)2025央视曝光参数 [38289]
砺算科技标准FC-BGA封装,长电科技封装测试长电科技无HBM,GDDR6 12GB消费级GPU定位,无需先进封装 [37335]
昆仑芯2代标准FC-BGA(推测),GDDR6显存未公开无HBM,GDDR6 16/32GB从1代HBM+2.5D转向GDDR6 [35732]
登临科技标准FC-BGA(推测),12nm成熟工艺未公开无HBM12nm芯片无需先进封装
景嘉微标准GPU封装(推测FC-BGA)未公开无HBM,GDDR5 8GB14nm成熟工艺
芯动科技风华1号:自研Innolink Chiplet + GDDR6X;风华3号:未公开未公开风华3号:112GB+超大显存(推测非HBM,可能是GDDR/LPDDR多堆叠)Innolink为国产Chiplet标准 [38306]
象帝先伏羲A0:未公开(12GB HBM2暗示可能使用2.5D封装)未公开HBM2 12GB(伏羲A0)5nm+12GB HBM2的组合暗示先进封装
芯瞳半导体标准FC-BGA(推测),12nm未公开无HBM,LPDDR4/DDR4低功耗嵌入式GPU

5.4.4.2. 封装技术的核心瓶颈

资深架构师洞察:先进封装是国产GPU仅次于制程的第二大瓶颈。2.5D CoWoS封装需要硅中介层(Silicon Interposer)——本质上是一块高精度硅片,上面布满了微米级别的TSV(硅通孔)和微凸块(Micro-bump)。全球能做这个的不多:台积电CoWoS(全球市占率>90%)、三星I-Cube、Intel EMIB。国内盛合晶微(前中芯长电)是唯一能量产2.5D封装的厂商,但产能和良率与台积电差距明显——华为910C封装环节约有25%的单元在合封过程中失败 [34599]。长电科技、通富微电、华天科技正在快速追赶,但要达到台积电CoWoS的产能和良率水平,至少还需要2-3年。


5.4.5. 关键架构差异化特征

5.4.5.1. 自研指令集 vs 授权IP

路线厂商特征
完全自研ISA华为昇腾、寒武纪、摩尔线程、壁仞、沐曦、天数智芯、燧原、昆仑芯、瀚博、登临、砺算、景嘉微、芯瞳从零定义指令集,自主可控,但软件生态需从零构建
架构授权+自研芯动科技(风华1号基于Imagination BXT,风华3号转向自研)、象帝先(伏羲基于Imagination DXD)、海光DCU(AMD CDNA派生)起步快,但受制于授权方,且面临制裁风险

5.4.5.2. 存储子系统对比

存储带宽是AI芯片的”血管”——算力再高,数据喂不进去也是白搭。

厂商存储类型最大容量带宽与NVIDIA H100(HBM3 80GB/3.35TB/s)对比
华为昇腾910CHBM2e128GB3.2 TB/s容量优于H100,带宽接近
海光深算二号HBM396GB1.536 TB/s约H100的46%
寒武纪思元590HBM2e96GB2.0-2.4 TB/s约H100的60-72%
壁仞BR100HBM2e64GB1.6 TB/s约H100的48%
沐曦C600HBM3e144GB>3.35 TB/s容量和带宽均对标H100
燧原L600HBM3e144GB3.6 TB/s容量和带宽均对标H100
阿里平头哥真武M890未公开144GB未公开容量对标H100
天数智芯天垓100HBM232GB1.2 TB/s约H100的36%
摩尔线程S4000GDDR648GB768 GB/s约H100的23%(非HBM路线)
砺算7G100GDDR612GB未公开消费级显卡定位
昆仑芯2代GDDR632GB512 GB/s约H100的15%
登临Goldwasser未公开未公开未公开推理场景对带宽要求较低

5.4.5.3. 片间互联技术对比

多卡互联是智算中心的命脉——单卡算力再强,无法高效互联也是”孤岛”。

厂商互联技术单卡带宽拓扑支持对标NVIDIA
华为昇腾910CHCCS784 GB/s384卡超节点NVLink(H100: 900 GB/s)
壁仞BR100BLink448 GB/s(单卡),总2.3 TB/s8卡全互联NVLink
沐曦MetaXLink896 GB/s(8卡互联)64卡超节点NVLink / NVSwitch
燧原L600GCU-LARE800 GB/s万卡集群NVLink
阿里平头哥真武ICN700 GB/s(810E)/ 800 GB/s(M890)64卡全带宽 / 128卡超节点NVLink
寒武纪MLU-Link372 GB/s多芯多卡NVLink
天数智芯片间互联64 GB/s多卡显著落后
摩尔线程MTLink 1.0未公开千卡/万卡集群NVLink

5.4.6. 小结:架构与制程的”代际地图”

将国产GPU厂商按架构和制程的”代际”做一张直观的定位图:

代际梯队制程厂商综合判断
第一梯队(接近国际水平)7nm+(含等效)华为昇腾、沐曦C600、燧原L600、阿里平头哥真武M890架构自研、HBM3e、2.5D封装、互联完整,整体接近H100水平
第二梯队(量产可用)7nm海光DCU、寒武纪思元590、壁仞BR100/BR104、天数智芯天垓100、昆仑芯2代、瀚博SV102架构自研,均已量产,但或受制裁影响代工,或存储带宽不足
第三梯队(图形GPU)6nm-14nm砺算7G100(6nm)、芯动风华3号、象帝先伏羲A0(5nm)、景嘉微JM9(14nm)、芯瞳GB2062(12nm)图形渲染能力为差异化优势,AI计算非主力,但国产图形GPU生态位稀缺
第四梯队(推理专用)12nm登临Goldwasser高能效推理,12nm成熟工艺,成本优势突出,但训练和图形能力缺失

核心结论:国产GPU在架构设计上已基本追平国际主流思路(SIMT、DSA、Chiplet、2.5D封装等均有布局),但在 制程工艺HBM供应 两个物理层面存在系统性代差。SMIC的7nm DUV工艺大约相当于台积电2018-2019年的水平,差距约2-3代。这意味着国产芯片在相同算力下芯片面积更大、功耗更高、成本更贵——这是物理定律决定的,不是架构优化能完全弥补的。未来3年,SMIC能否突破5nm级工艺、CXMT能否量产国产HBM,将是决定国产GPU能否真正进入”第一梯队”的两个决定性变量。


本节数据截至2026年6月。部分初创厂商的芯片微架构细节、精确晶体管数量和芯片面积等底层物理参数未在公开资料中完整披露,标注”未公开”的字段需进一步核验。

5.5. AI训练能力对比

对比FP32/FP16稠密算力、显存带宽、互联能力、大模型训练实测表现

AI 训练能力是衡量 GPU/GPGPU 芯片“硬实力”的第一标尺。它不等同于纸面峰值算力(Peak TFLOPS),而是一个由 算力密度 × 显存带宽 × 互联带宽 × 集群线性度 × 软件栈效率 构成的复合函数。本节从 FP32/BF16/FP16 稠密算力、显存带宽、卡间互联、大模型训练实测四个维度,对国产厂商进行系统对比,并以 NVIDIA A100/H100 为基准锚点。

核心洞察:纸面算力是最容易“注水”的指标。架构工程能力的真正差距,体现在显存带宽与算力的比值(Byte/FLOP Ratio)、互联带宽能否支撑有效的张量并行、以及千卡集群线性加速比能否突破 90%——这三者才是区分“能做训练”和“能做好训练”的分水岭。


5.5.1. 核心训练参数总览表

下表汇总了各厂商旗舰训练产品的关键规格。NVIDIA A100(80GB SXM)和 H100(80GB SXM)作为基准参照。

厂商产品型号制程FP32 (TFLOPS)FP16/BF16 (TFLOPS)显存显存带宽卡间互联互联带宽TDP (W)
NVIDIA(基准)A100 80GB SXM7nm TSMC19.531280GB HBM2e2.0 TB/sNVLink 3.0600 GB/s400
NVIDIA(基准)H100 SXM4nm TSMC6798980GB HBM33.35 TB/sNVLink 4.0900 GB/s700
NVIDIA(前沿)B2004nm TSMC~90~2,250192GB HBM3e8.0 TB/sNVLink 5.01,800 GB/s1,000
华为昇腾Ascend 910B27nm (SMIC)9437664GB HBM2e0.39 TB/sHCCS392 GB/s310
华为昇腾Ascend 910C7nm (SMIC)~200~800128GB HBM2e/33.2 TB/sD2D+HCCS~400 GB/s550
寒武纪MLU5907nm TSMC80256–34580–96GB HBM2e2.0–2.7 TB/sMLU-Link372 GB/s250–450
海光DCUK100_AI7nm4919264GB HBM20.90 TB/sxGMI184 GB/s350–400
海光DCU深算二号7nm+90180–25696GB HBM31.54 TB/sxGMI184 GB/s350
壁仞科技BR1007nm TSMC2561,024 (BF16)64GB HBM2e2.3 TB/sBLink448 GB/s550
壁仞科技BR1047nm TSMC128512 (BF16)32GB HBM2e0.82 TB/sBLink未公开300
摩尔线程MTT S4000未公开2510048GB0.77 TB/sMTLink 1.0240 GB/s450
燧原科技云燧T20 (邃思3.0)未公开6425680GB HBM32.3 TB/sGCU-LARE400 GB/s300
燧原科技云燧T20 (邃思2.0)12nm GF33.6134.464GB HBM2e1.8 TB/sGCU-LARE300 GB/s300
沐曦曦云C500 OAM7nm36 (矩阵)28064GB HBM2e1.8 TB/sMetaXLink未公开450
沐曦曦云C5507nm未公开~24064GB HBM2e~1.6–1.8 TB/sMetaXLink896 GB/s (8卡)450
天数智芯天垓1007nm3714732GB HBM21.2 TB/s片间互联64 GB/s250
百度昆仑芯R300 (OAM)7nm3212832GB GDDR60.51 TB/s片间互联200 GB/s~120
百度昆仑芯P800 (三代)未公开未公开34596GB HBM3未公开未公开未公开未公开
阿里平头哥真武 PPU7nm未公开未公开96GB HBM2e未公开片间互联700 GB/s400
芯动科技风华3号未公开78~156 (估)112GB+ HBM未公开UALink1.5 Tbps+ (Chiplet)未公开

数据来源:华为昇腾 [38513];寒武纪 [38887];海光DCU [38671];壁仞 [39144];摩尔线程 [38436];燧原 [1140];沐曦 [39683];天数智芯 [39387];昆仑芯 [40441];平头哥 [41970];芯动 [15]。NVIDIA 基准 [40365]


5.5.2. 显存带宽与算力密度的”Byte/FLOP Ratio”分析

这是资深架构师最关注的指标——它衡量的是 每单位算力能获得多少数据供给。一个形象的比喻:算力是”厨房的灶台功率”,显存带宽是”食材从冰箱到灶台的传送带速度”。灶台再猛,食材供不上也白搭。大模型训练中,Attention 和全连接层的矩阵运算对带宽极度敏感。

厂商产品FP16 (TFLOPS)显存带宽 (TB/s)Byte/FLOP Ratio评价
NVIDIA H100H100 SXM9893.350.0034黄金标准
NVIDIA A100A100 80GB3122.00.0064优秀
华为昇腾910C~8003.20.0040接近H100
寒武纪MLU590256–3452.0–2.70.0078接近A100
燧原T20 (邃思3.0)2562.30.0090良好
壁仞BR1001,024 (BF16)2.30.0022⚠️ 算力极高但带宽未同步放大
沐曦C500 OAM2801.80.0064对齐A100
海光K100_AI1920.900.0047偏低
摩尔线程S40001000.770.0077中等
天数智芯天垓1001471.20.0082中等
昆仑芯R3001280.510.0040⚠️ GDDR6明显瓶颈
华为昇腾910B23760.390.0010❌ 严重瓶颈

架构师点评:Byte/FLOP Ratio 越低越好(单位算力所需带宽越小)。NVIDIA H100 的 0.0034 是当前最优值。910B2 的 0.0010 是因为其显存带宽(392 GB/s)远低于算力(376 TFLOPS)应匹配的水平——这解释了为什么 910B 在部分带宽敏感场景下实际效率仅达 A100 的 80% 而非纸面算力所暗示的超越 [38505]。华为在 910C 上通过 MCM 封装大幅弥补了这一缺陷(3.2 TB/s vs 392 GB/s),是 910B 到 910C 最关键的架构升级 [38565]

壁仞 BR100 的”Byte/FLOP Ratio 陷阱”:BR100 的 BF16 算力高达 1,024 TFLOPS,但显存带宽仅 2.3 TB/s,Byte/FLOP Ratio 为 0.0022——这意味着它每单位算力获得的带宽反而不如 H100。在超大模型分布式训练中,实际有效算力利用率将显著低于峰值,这是一个容易被忽视的工程陷阱 [39144]


5.5.3. 卡间互联能力对比

互联(Interconnect)是决定多卡训练效率的关键。大模型训练依赖张量并行(Tensor Parallelism)、流水线并行(Pipeline Parallelism)和数据并行(Data Parallelism),其中张量并行对卡间带宽要求最高,AllReduce 通信量随模型规模增长而快速增长。

厂商互联技术单卡双向带宽单节点拓扑是否对标 NVLink跨节点方案
NVIDIANVLink 4.0 + NVSwitch900 GB/s8卡全互联基准InfiniBand NDR 400GB/s
华为HCCS392 GB/s (910B)4卡全连接弱于NVLinkRoCE 100/400GbE
寒武纪MLU-Link372 GB/s (590)多卡互联弱于NVLink未公开
壁仞BLink448 GB/s8卡全互联中等未公开
燧原GCU-LARE400 GB/s (邃思3.0)2D Torus中等RoCE,最高8192卡
沐曦MetaXLink896 GB/s (8卡聚合)8卡全互联 / 3D Mesh 64卡接近NVLink光互连超节点
摩尔线程MTLink 1.0240 GB/s2/4/8卡明显弱IB 400Gb/s
海光xGMI184 GB/s多卡明显弱未公开
天数智芯片间互联64 GB/s多卡❌ 严重弱未公开
昆仑芯片间互联200 GB/s8卡双环路明显弱多机集群
阿里平头哥片间互联700 GB/s未公开接近NVLink未公开

架构师点评:互联是国产芯片与 NVIDIA 差距最大的维度之一。NVIDIA 通过 NVSwitch 实现了节点内 8 卡全互联 + 900 GB/s 双向带宽,而国产厂商中仅华为(HCCS 392 GB/s)、壁仞(BLink 448 GB/s)、燧原(GCU-LARE 400 GB/s)和阿里平头哥(700 GB/s)跨过了 400 GB/s 门槛。沐曦的 MetaXLink 在 8 卡聚合带宽上达到 896 GB/s,是国产中最接近 NVLink 4.0 的方案 [39846]。一个值得注意的细节:寒武纪思元 290 的 MLU-Link 曾达到 600 GB/s,但 MLU590 反而降至 372 GB/s——这是架构迭代中的工程取舍,可能与功耗/面积优化有关 [38611]


5.5.6. 深度分析:训练能力的五个隐性瓶颈

5.5.6.1. FP8 的缺失——国产训练芯片的”阿喀琉斯之踵”

NVIDIA H100 引入 FP8 Transformer Engine 后,训练吞吐量可达 FP16 的 2 倍。H100 的 FP8 峰值算力高达 1,979 TFLOPS,而 A100 完全不支持 FP8 [40365]。国产芯片中:

  • 华为昇腾 910B/910C:不支持 FP8,这是与 H100 最核心的代差之一 [38523]
  • 壁仞 BR100:不支持 FP8,主力精度为 BF16
  • 摩尔线程 S5000(下一代):宣称支持 FP8,2025年3月量产 [41894]
  • 砺算 7G100:支持 FP8/FP16/FP32 多精度切换 [41894]

FP8 的缺失意味着国产芯片在训练同等规模模型时,需要更多卡数、更长时间,TCO 显著上升。这不仅是硬件问题——FP8 需要编译器、框架、算子库的全栈支持,软件工程量巨大。

5.5.6.2. 显存容量——“百亿参数”与”万亿参数”的分界线

大模型训练对显存的需求呈指数级增长。以 Llama-2-70B 混合精度训练为例,仅模型状态就需要约 280 GB 显存(参数 + 梯度 + 优化器状态),至少需要 4 张 80GB 显存的 GPU [39026]。国产芯片中:

  • ≥80GB 阵营:华为 910C (128GB)、寒武纪 MLU590 (80–96GB)、燧原 T20 邃思3.0 (80GB)、阿里平头哥 PPU (96GB)、海光深算二号 (96GB)、昆仑芯 P800 (96GB)、芯动风华3号 (112GB+)
  • 48–64GB 阵营:华为 910B (64GB)、壁仞 BR100 (64GB)、海光 K100_AI (64GB)、沐曦 C500/C550 (64GB)、摩尔线程 S4000 (48GB)
  • ≤32GB 阵营:天数智芯天垓100 (32GB)、昆仑芯 R300 (32GB)、景嘉微 JM9 (1–8GB)、象帝先 (16GB)

48GB 以下显存的芯片,本质上是”微调卡”而非”预训练卡”。70B 参数模型的全精度预训练,32GB 显存连模型本身都放不下。

5.5.6.3. 互联带宽——“千卡”与”万卡”的分水岭

NVIDIA 从 DGX A100 到 DGX H100,通过 NVSwitch 实现了节点内 8 卡全互联。国产芯片的互联方案普遍存在两个问题:带宽不足拓扑受限

  • 华为 HCCS 在 910B 上仅支持 4 卡一组全连接,8 卡服务器需两两成组,跨组通信效率下降 [39028]
  • 天数智芯的片间互联仅 64 GB/s,多卡训练几乎等同于纯 PCIe 通信 [13633]
  • 海光 xGMI 仅 184 GB/s,是国产主流方案中最低的 [38782]

例外沐曦 MetaXLink 实现了 8 卡全互联 + 3D Mesh 64 卡超节点,光互连方案可扩展至 128 卡,是国产互联方案中架构最接近 NVIDIA 的 [39839]


5.6. AI推理能力对比

对比INT8算力、能效比、时延、多模型适配能力

推理能力是衡量AI芯片在模型部署阶段实际效能的核心维度,直接决定了智算中心的运营成本(TCO)和最终用户体验。与训练场景不同,推理任务通常对实时性、吞吐量和能效比有极高要求,且其性能瓶颈往往不在于芯片的峰值算力,而在于显存带宽、算子利用率和软件栈的调度效率。本节将系统对比国产主要AI芯片在INT8算力、能效比、实测推理延迟以及多模型/多框架适配广度四个维度的表现。

架构师注:评估推理能力不能仅看纸面INT8 TOPS。推理性能,尤其是大语言模型的逐token生成阶段,是典型的“访存受限”场景。显存带宽决定了模型权重的读取速度,从而直接限制了单卡的理论最大吞吐量。因此,同等TOPS下,显存带宽更高、软件栈更高效的芯片,其实际推理速度可能领先数倍。

5.6.1. 核心指标对比

公司代表芯片INT8 TOPS (峰值)TDP (W)能效比 (TOPS/W)典型推理延迟 (公开数据)多模型适配推理框架支持
华为昇腾910B640 [42010]310~2.06DeepSeek-R1延迟较H100仅差~5% [18]⭐⭐⭐⭐⭐MindIE, vLLM-ascend, CANN
华为昇腾910C~1,600 [4]~600~2.67公开数据有限⭐⭐⭐⭐⭐同上
寒武纪思元590512 [42072]250~2.0570B模型推理延迟38ms [42082]; ResNet-50: 2.7ms [42079]⭐⭐⭐⭐CNML, vLLM-MLU
海光DCU深算二号~1,000 [42035]350~2.86风控推理延迟15ms [7]⭐⭐⭐⭐⭐DCU-Toolkit, ROCm兼容, vLLM
壁仞科技BR1002,048 [42054]550~3.72MLPerf BERT单卡全球第一 [42051]⭐⭐⭐BIRENSUPA, 受制裁影响生态
壁仞科技BR1041,024 [42057]300~3.41MLPerf ResNet50单卡第一,能效比达A100的2.11倍 [42062]⭐⭐⭐同上
摩尔线程MTT S4000200 [42098]450~0.44DeepSeek-R1 671B适配通过信通院验证 [42097]⭐⭐⭐vLLM-MUSA, MUTLASS, Triton-MUSA
摩尔线程MTT S5000256 [13]DeepSeek-R1 Decode吞吐量≈H20的1.3倍 [14]⭐⭐⭐同上
天数智芯智铠100384 [42113]150~2.56提供2-3倍于主流产品实际性能 [42109]⭐⭐⭐DeepSpark, 兼容CUDA编程模型
沐曦MXN100 (曦思N100)160 [42190]公开数据有限⭐⭐⭐MXMACA, 兼容CUDA
沐曦C6005.2 TOPS/W (FP8, Qwen-7B) [42362]⭐⭐⭐⭐同上
燧原科技邃思2.0 (T20/T21)268.8/320 [42151]公开数据有限⭐⭐⭐TopsRider
燧原科技云燧i20256 [42149]公开数据有限⭐⭐⭐同上
百度昆仑芯P800 (昆仑芯3代)~512 [23]~400~1.28DeepSeek 671B推理延迟<50ms [42144]; Qwen3-32B吞吐1184 tok/s [42138]⭐⭐⭐⭐⭐vLLM-Kunlun, 飞桨深度优化
阿里平头哥含光800820 [42186]276~2.97ResNet-50: 0.11ms延迟 [42169]; 城市大脑延迟150ms (vs GPU 300ms) [42170]⭐⭐仅视觉推理,非通用大模型
阿里平头哥真武810E1,536 [42171]400~3.84首Token延迟82ms (优于H20的95ms) [42187]; 吞吐2,800 tok/s [42187]⭐⭐⭐⭐全栈自研/阿里云深度优化
瀚博半导体VA10400 [42227]150~2.67延迟低至主流GPU的6% (YoloV3) [42227]⭐⭐VastStream
登临科技Goldwasser L128-256 [42215]40-70~3.2-3.6640W输出128TOPS,实测3倍能效提升 [42217]⭐⭐⭐GPU+ (兼容CUDA/OpenCL)

基准参考

  • NVIDIA A100 (80GB SXM): INT8 624 TOPS (dense) / 1,248 TOPS (sparse), TDP 400W, 能效比 ~1.56 TOPS/W [42358]
  • NVIDIA H100 (SXM): INT8 ~3,958 TOPS, TDP 700W, 能效比 ~5.65 TOPS/W [36]
  • NVIDIA H20 (中国特供): INT8 296 TOPS, TDP 400W, 能效比 ~0.74 TOPS/W [37]

符号说明:⭐ = 仅适配少数模型/框架;⭐⭐⭐⭐⭐ = 适配主流大模型全系列及主流推理框架

5.6.1.1. 能效比深度分析

能效比(TOPS/W)是衡量推理芯片经济性的关键指标,直接影响智算中心的电力成本和散热需求。以下从公开数据出发,分层级分析:

第一梯队(能效比 > 3.0 TOPS/W)

  • 阿里真武810E(~3.84 TOPS/W):凭借自研架构和阿里云全栈优化的协同效应,在千问大模型推理场景中能效表现突出。但需注意,其优势部分来自软硬一体化优化,在通用模型适配场景下的能效数据尚待公开 [42171]
  • 壁仞BR100(~3.72 TOPS/W):采用Chiplet+7nm设计,在MLPerf BERT测试中能效比达A100的2.11倍 [42062]。但需注意,该数据来自2022年的MLPerf提交,且BR100量产因制裁受阻,当前能效表现需进一步核验。
  • 登临Goldwasser L(~3.2-3.66 TOPS/W):通过软件定义的片内异构架构(GPU+),在40W功耗下实现128 TOPS的算力输出,实测相比国际主流推理卡有3倍以上能效优势 [42217]。其优势场景集中在CV类推理,大语言模型推理的能效数据尚未公开。

第二梯队(能效比 2.0-3.0 TOPS/W)

  • 海光深算二号(~2.86 TOPS/W):在金融风控等实际部署中,推理延迟从50ms降至15ms,综合能效表现稳健 [7]
  • 瀚博VA10(~2.67 TOPS/W):凭借超低延迟的AI引擎,在150W功耗下实现400 TOPS,视频流分析场景能效比突出 [42227]
  • 天数智铠100(~2.56 TOPS/W):作为推理专用芯片,150W TDP提供384 TOPS,能效比优于其训练芯片天垓100 [42113]
  • 华为昇腾910C(~2.67 TOPS/W):双Die合封方案在提升算力同时保持了较好的能效表现 [4]
  • 寒武纪思元590(~2.05 TOPS/W):250W功耗实现512 TOPS,功耗控制优于多数竞品 [42072]。另有来源称其能效比达5 TOPS/W [42072]或7.9 TFLOPS/W [42077],数据口径不一,建议以实测为准。

第三梯队(能效比 < 2.0 TOPS/W 或数据不足)

  • 摩尔线程MTT S4000(~0.44 TOPS/W):作为全功能GPU,其价值在于“训推一体+图形渲染+视频编解码”的综合能力,而非单纯的推理能效比 [42094]
  • 景嘉微、象帝先、芯瞳半导体:多为图形GPU公司,推理非其核心场景,INT8算力较低或未公开。

架构师洞察:能效比不能孤立看待。一颗2.0 TOPS/W的芯片如果算子利用率可达80%,其实际有效能效比可能优于一颗3.0 TOPS/W但利用率仅40%的芯片。国产芯片的软件栈效率(算子覆盖率、计算图优化、内存复用等)是决定“有效能效比”的关键变量,也是当前与NVIDIA差距最大的维度之一。

5.6.1.2. 推理延迟实测数据对比

推理延迟是衡量用户体验的核心指标,对实时对话、自动驾驶、金融风控等场景至关重要。以下汇总公开可获取的实测延迟数据:

场景硬件平台模型/任务指标延迟对比基准来源
大模型推理昆仑芯P800 (8卡)DeepSeek-R1 671B平均延迟<50ms满足500人团队并发 [42142]百度智能云
大模型推理昆仑芯P800 (8卡)Qwen3-32B (TP=8)吞吐量1,184 tok/sTTFT 1.8s [42138]第三方实测
大模型推理阿里真武810E千问大模型首Token延迟82ms (batch=1)优于H20的95ms [42187]央视/公开
大模型推理阿里真武810E千问大模型吞吐量2,800 tok/s (batch=64)较H20提升~18% [42187]央视/公开
大模型推理昇腾910BDeepSeek-R1延迟 vs H100仅差~5%吞吐量差距<8% [18]券商研报
大模型推理寒武纪思元59070B参数模型推理延迟38ms (优化后)优化前120ms [42082]第三方实测
大模型推理寒武纪思元590ResNet-50单卡延迟2.7ms (优化后)优化前8.2ms [42079]蓝耘智算
大模型推理摩尔线程MTT S5000DeepSeek-R1Decode吞吐≈H20的 1.3倍 [14]摩尔线程官方
视觉推理阿里含光800ResNet-50单帧延迟0.11ms [42169]性能模式78,563 IPS阿里/MLPerf
视觉推理阿里含光800城市大脑(杭州)端到端延迟150ms传统GPU: 300ms (40颗→4颗) [42170]阿里云栖大会
视觉推理瀚博VA10YoloV3 (<4ms场景)延迟为主流GPU的 6% [42227]性能达主流GPU的3倍+瀚博WAIC 2022
金融推理海光深算二号风控模型推理延迟15ms优化前50ms [7]券商/客户

重要说明:以上延迟数据来自不同测试环境和模型版本,直接横向比较需谨慎。华为昇腾和阿里真武的部分数据来自厂商或关联方,建议独立第三方交叉验证。标“需进一步核验”的条目表示数据来源的独立性或测试条件透明度不足

5.6.1.3. 多模型适配能力对比

大模型推理时代,“能否跑”比“跑多快”更关键。以下从模型覆盖广度、适配速度、框架兼容性三个维度评估:

公司DeepSeek系列千问(Qwen)文心/飞桨LLaMA/GPT系ChatGLM/悟道适配速度算子覆盖度
华为昇腾✅ 全系列✅ 深度优化⚠️ 部分✅ CANN适配⭐⭐⭐⭐⭐ 最快高(CANN算子)
海光DCU✅ 全系列✅ 全系列⭐⭐⭐⭐⭐ 最快>99% (对标CUDA) [42042]
昆仑芯P800✅ 全系列✅ 已验证✅ 飞桨深度优化⚠️⭐⭐⭐⭐⭐高(飞桨生态)
寒武纪✅ V3/R1⚠️⚠️⚠️ 部分适配⚠️⭐⭐⭐⭐中高
阿里真武⚠️ 部分✅ 原生优化⚠️⭐⭐⭐中(阿里云绑定)
摩尔线程✅ R1 671B验证⚠️⚠️⚠️ 部分⚠️⭐⭐⭐中(MUSA生态)
壁仞科技公开资料有限⚠️⚠️⚠️ 部分⚠️⭐⭐中(受制裁影响)
天数智芯⚠️⚠️⚠️⚠️ 部分⚠️⭐⭐⭐
沐曦⚠️⚠️⚠️⚠️ 部分⚠️⭐⭐⭐中(MXMACA)
燧原科技⚠️⚠️⚠️⚠️ 部分⚠️⭐⭐⭐
瀚博半导体⚠️ VA1L支持⚠️⚠️⚠️ ChatGPT/LLaMA [42235]⚠️⭐⭐中低
登临科技公开资料有限⚠️⚠️⚠️ 部分⚠️⭐⭐中(兼容CUDA)

2025-2026关键事件

  • 2025年2月:DeepSeek-R1/V3发布后,海光DCU、昆仑芯、昇腾在极短时间内完成适配 [18]
  • 2025年5月:摩尔线程MTT S4000通过中国信通院DeepSeek-R1适配验证 [42097]
  • 2025年9月:DeepSeek-V3.2发布当日,海光DCU实现无缝适配+深度调优 [42342]
  • 2025年12月:阿里真武810E已在阿里云万卡集群运行千问大模型训练推理 [42]

5.6.1.4. 推理场景综合评分

公司INT8算力 (5分)能效比 (5分)延迟表现 (5分)多模型适配 (5分)推理框架 (5分)综合评分核心评价
华为昇腾434544.0推理生态最完整,CANN+vLLM-ascend支撑全场景
海光DCU434554.2类CUDA兼容性最强,算子覆盖>99%,迁移成本最低
昆仑芯334543.8飞桨生态深度绑定,大模型推理性价比突出
寒武纪344433.6能效比优秀,推理延迟表现好,生态覆盖待加强
阿里真武444333.6阿里云生态绑定,千问模型推理效率领先
壁仞科技544223.4算力纸面最强,制裁下量产受限,生态建设停滞
天数智芯333333.0推理专用芯片智铠100能效比不错,生态待完善
沐曦333333.0C600有望提升能效比,FP8原生支持是亮点
摩尔线程223332.6全功能GPU定位,推理非其主战场,MUSA生态在建设
燧原科技332322.612nm制程限制推理能效上限,生态相对封闭
登临科技343233.0推理能效比优秀,但大模型适配进度滞后
瀚博半导体344223.0视觉推理延迟极低,LLM推理生态待补课
阿里含光800445113.0视觉推理“性能怪兽”,但非通用大模型推理芯片

NVIDIA基准参考:A100推理综合评分约4.2(能效比中等、生态完善、延迟优秀);H100推理综合评分约4.8(FP8原生支持、Transformer Engine、吞吐量显著提升)。

5.6.1.5. 架构师深度点评

1. “推理能力”不等于“INT8 TOPS”

这是最容易让非专业人士误判的维度。国产芯片普遍在INT8峰值算力上“对标”甚至“超越”A100(如BR100的2,048 TOPS vs A100的624 TOPS),但实际推理吞吐量差距仍然显著。核心原因有三:

  • 显存带宽瓶颈:LLM推理的Decode阶段是典型的“memory-bound”任务——每个token的生成需要读取整个模型权重。以70B模型为例,INT8量化后约70GB,若显存带宽为1.5 TB/s,理论最大token生成速率约为21 tokens/s。芯片的INT8 TOPS再高也无法突破这一物理上限。国产芯片中,海光深算二号(1.5 TB/s)和寒武纪思元590(~2 TB/s)在带宽方面相对领先 [42072]
  • 算子效率:同样的矩阵乘法,不同芯片的MAC阵列利用率差异巨大。NVIDIA通过cuBLAS、CUTLASS等深度优化库可将利用率推至80-90%,而国产芯片的算子库在长尾模型上的利用率通常仅40-60%。
  • Batch调度:Continuous Batching、PagedAttention等推理优化技术对软件栈要求极高,国产芯片中仅华为MindIE、昆仑芯vLLM-Kunlun实现了较完整的支持。

2. 推理市场的“分层竞争”格局正在形成

  • 云端大模型推理:华为昇腾、海光DCU、昆仑芯P800、阿里真武构成第一梯队,是当前产品力最强的四家。
  • 视觉/视频推理:阿里含光800(已停产或迭代中)、瀚博VA10、登临Goldwasser在各自细分场景中表现优异,但通用性不足。
  • 边缘推理:天数智铠100、登临Goldwasser UL、各类NPU在低功耗场景中竞争。

3. 能效比——智算中心OPEX的“隐形杀手”

一个3,000卡的智算中心集群,若每卡功耗差50W,全年电费差距可达约130万元(按0.5元/kWh计算)。在推理场景中,能效比的重要性甚至超过峰值算力。但当前国产芯片的能效比数据普遍缺乏独立第三方测试,厂商宣传的“x倍于A100”需要审慎看待 [42062]

4. 多模型适配——“能用”是当前核心矛盾

国产芯片在2025年经历了DeepSeek适配潮,主流厂商均完成了DeepSeek系列的适配。但“适配能跑”和“优化到位”之间仍有巨大鸿沟。海光DCU以其类CUDA的HIP接口和>99%的算子覆盖度,在迁移成本上具明显优势 [42042];昆仑芯P800依托飞桨生态和百度内部大规模部署经验,在DeepSeek推理场景中表现出色 [42144];华为昇腾凭借CANN全栈优化和vLLM-ascend开源社区,在适配速度上处于领先 [18]

5.7. 图形渲染能力对比

对比API支持、像素填充率、纹理速率、驱动成熟度、游戏/专业图形性能

本小节从 图形API兼容性、像素填充率、纹理填充率、驱动成熟度、游戏/专业图形实测性能 五个维度,对国产GPU厂商中真正具备图形渲染能力的产品进行横向对比。需要首先明确一个关键前提:中国国产GPU赛道中,绝大多数厂商做的是AI加速器/GPGPU,不具备完整的图形渲染管线——华为昇腾、寒武纪、海光DCU、壁仞、燧原、昆仑芯、瀚博、天数智芯、沐曦、登临等厂商的产品,本质上是AI/GPGPU计算卡,没有传统意义上的ROP(光栅操作单元)、TMU(纹理映射单元)、显示控制器等固定功能图形硬件,因此本章节仅聚焦于 真正具备图形渲染能力的厂商


5.7.1. 谁会做图形渲染?——国产”真·GPU”与”AI加速器”的分水岭

在国产GPU赛道中,“GPU”这个标签被严重泛化。从图形渲染硬件的角度,可以做一个清晰的分类:

分类厂商是否有完整图形管线核心特征
全功能GPU(图形+计算)摩尔线程、砺算科技、芯动科技、象帝先、景嘉微、芯瞳半导体、格兰菲✅ 是具备ROP/TMU/显示控制器,支持图形API
GPGPU(有计算无图形)壁仞、海光DCU、天数智芯、沐曦、登临❌ 否仅SIMT/SIMD计算,无图形固定功能硬件
AI加速器(DSA)华为昇腾、寒武纪、燧原、昆仑芯、瀚博❌ 否纯矩阵加速,无图形管线

架构师点评:英伟达之所以”护城河”深,很大程度在于它同时掌握图形和计算两条技术路线,且两者共享底层架构。CUDA生态最初就是为图形着色器设计的,后来才发展成为通用计算平台。国内目前只有摩尔线程、砺算科技等少数厂商在同时走这两条路,其余厂商本质上是在做”去掉图形功能的类CUDA加速器”。


5.7.2. 图形API支持对比

图形API支持是判断GPU”图形能力”的第一道门槛。API版本直接决定了GPU能运行的软件范围——从游戏到专业CAD/CAE再到GIS。

厂商产品DirectXVulkanOpenGLOpenGL ESOpenCLWHQL认证
摩尔线程MTT S80/S3000DX11→DX121.34.0
砺算科技7G100DX12 (12.2)1.34.63.0✅ 已通过
芯动科技风华3号DX121.24.6
芯动科技风华2号DX114.3
象帝先伏羲A0DX12(推测)1.34.63.2
象帝先天钧一号DX111.14.63.2
景嘉微JH9201.14.03.23.0
景嘉微JM72001.3~1.5
芯瞳CQ2040
格兰菲Arise-GT10C0DX114.51.2
NVIDIA(参考)RTX 4060DX12U1.34.63.23.0
AMD(参考)RX 7600DX12U1.34.63.22.0

关键解读

  • DirectX 12 是Windows生态下游戏和大部分专业3D软件的”入场券”。目前仅砺算科技7G100和芯动风华3号明确支持DX12,且砺算通过了微软WHQL认证——这是国产GPU在Windows图形生态中的里程碑事件 [42442]
  • Vulkan 1.3 是目前最新的跨平台图形API标准,摩尔线程和砺算科技均已支持 [42407]
  • 景嘉微的JH920仅支持OpenGL 4.0和Vulkan 1.1,与当前主流差距约5-7年 [42659]
  • 芯瞳和格兰菲目前版本停留在DX11甚至无DX支持,面向的更多是国产信创办公场景而非游戏和3A渲染 [42597]

5.7.3. 像素填充率与纹理填充率对比

像素填充率(Pixel Fillrate)和纹理填充率(Texture Fillrate)是衡量GPU图形渲染”吞吐量”的两项核心硬指标,分别反映GPU输出最终像素和纹理采样的能力。

厂商产品像素填充率纹理填充率核心频率备注
摩尔线程MTT S80158~188 GPixel/s151~194 GTexel/s1.8 GHzFillrate Tester实测 [42699]
摩尔线程MTT S3000未公开未公开1.9 GHz服务器GPU,侧重计算
砺算科技7G100/106未公开(96 ROPs)未公开(192 TMUs)~2.5 GHz3DMark FS 26800分 [42679]
芯动科技风华1号(A卡)160 GPixel/s未公开未公开单芯片 [42470]
芯动科技风华2号48 GPixel/s未公开未公开GLmark2 >6500 [42464]
象帝先天钧一号>128 GPixel/s未公开未公开2048 Compute Cores [42737]
景嘉微JH92032 GPixel/s未公开1.2 GHz14nm [42671]
景嘉微JM7200~5.2 GPixel/s~10.4 GT/s1.3 GHz28nm,4条渲染管线 [42625]
格兰菲Arise-GT10C048 GPixel/s未公开500 MHz28nm [42854]
芯瞳CQ2040未公开未公开未公开1152核心,FP32 1.3 TFLOPS [42581]
NVIDIA(参考)RTX 306085.3 GPixel/s199.0 GTexel/s1.78 GHz12GB GDDR6
NVIDIA(参考)RTX 4060118.0 GPixel/s236.0 GTexel/s2.46 GHz8GB GDDR6
NVIDIA(参考)GTX 165053.3 GPixel/s93.2 GTexel/s1.49 GHz入门游戏卡

架构师点评

  • 摩尔线程MTT S80的像素填充率(158~188 GPixel/s)在纸面上非常亮眼,甚至超过了RTX 3060(85.3 GPixel/s)和RTX 4060(118 GPixel/s)[42699]。但 填充率≠实际游戏性能——驱动效率和软件优化才是关键瓶颈。MTT S80的硬件底子确实不错,但早期驱动只能发挥其理论能力的30-40%。
  • 砺算科技7G100配备192个TMU和96个ROP,理论填充率应接近RTX 4060水平(RTX 4060为96 ROPs/128 TMUs),但注意砺算的ROP数量更多,说明其更侧重像素输出能力 [42691]
  • 景嘉微从JM7200的5.2 GPixel/s到JH920的32 GPixel/s,提升了6倍,但仍仅为GTX 1650的60%左右 [42625]

5.7.4. 3DMark/游戏实测性能对比

理论参数再好看,最终还是要看实测跑分。以下汇总已公开的基准测试成绩:

厂商产品3DMark Fire Strike3DMark Steel Nomad鲁大师对标NVIDIA游戏实测
砺算科技7G106268002268≈RTX 4060黑神话悟空1080P高画质>70fps [42679]
摩尔线程MTT S80约9000(DX11)~19.8万≈GTX 1650只狼1080P最高画质55fps [42551]
摩尔线程MTT S80(v290驱动)3.4倍于首发GTX 1060~1650CS2 33fps→持续优化 [42552]
芯动科技风华3号未公开未公开宣称国际主流古墓丽影/三角洲行动可运行 [42640]
芯动科技风华2号GLmark2 >6500,Unigine Heaven可运行 [42464]
象帝先伏羲A0未公开未公开综合渲染提升1倍+黑神话悟空适配中 [42531]
景嘉微JH920≈GTX 1050未公开游戏实测 [42671]
NVIDIA(参考)RTX 4060~27000~2300
NVIDIA(参考)GTX 1650~9500~17.3万

关键解读

  • 砺算科技7G100是国产图形GPU中第一个在3DMark Fire Strike中达到RTX 4060水平的产品(26800 vs 27000),这使得它成为当前国产图形GPU的”性能天花板” [42679]。但需要注意,实际游戏中的驱动优化仍在进行中——《古墓丽影:暗影》实测帧率仅相当于RTX 2060水平,跑分≠游戏体验 [42696]
  • 摩尔线程MTT S80经过36个驱动版本迭代(2022.11-2025.12),Fire Strike成绩提升至首发的3.4倍,从”几乎不能玩游戏”进化到”GTX 1060-1650级别” [42552]。这证明驱动优化的空间巨大,但也说明硬件从发布到”好用”需要2-3年的软件打磨。
  • 象帝先伏羲A0是唯一采用5nm+IMG DXD架构的国产图形GPU,宣称160 TFLOPS FP32,已适配《黑神话:悟空》,但公开实测数据有限 [42530]

5.7.5. 驱动成熟度对比

驱动是图形GPU的”灵魂”。硬件再强,驱动不行就是”电子砖头”。以下是驱动成熟度的定性评估:

厂商驱动更新频率驱动版本数游戏兼容性专业软件兼容稳定性评价关键痛点
摩尔线程★★★★☆ 月度更新36+支持DX11/DX12,追踪450+游戏,适配192+部分支持中等,持续改善DX11早期几乎不可用,Windows 11稳定性不足 [42541]
砺算科技★★★☆☆ 季度更新较少(新品)支持30% 3A游戏 [42562]未充分验证新品,待观察刚量产,驱动迭代经验不足,游戏兼容率低 [42562]
芯动科技★★☆☆☆ 不定期少量通过Vulkan兼容运行CAD验证中初级风华3号刚发布,生态几乎为零
象帝先★★☆☆☆ 不定期少量黑神话悟空适配中数字孪生Demo初级经历了公司危机,团队稳定性存疑
景嘉微★★☆☆☆ 缓慢少量基本无游戏GIS/CAD/机载显控军工级稳定性能弱,API版本老旧,无游戏生态 [42676]
芯瞳★★☆☆☆ 缓慢少量办公/信创基础稳定仅GT1030级别,无图形生态 [42585]
格兰菲★★☆☆☆ 缓慢极少量桌面/商业显示基础稳定28nm落后,Win7驱动不足 [42857]
NVIDIA(参考)★★★★★ Game Ready月度数百+几乎所有游戏全面支持极致稳定

架构师点评:图形驱动是GPU领域最”苦”的活——它需要针对每一款3A大作做逐帧优化、排查渲染错误、处理各种API corner case。NVIDIA有数千人的驱动团队和20年积累,国产厂商的驱动团队通常只有几十到几百人,差距是数量级的。摩尔线程的36个驱动版本证明了”勤能补拙”,但离”开箱即用”还有很长的路。


5.7.6. 专业图形能力对比(CAD/CAM/GIS/数字孪生)

对于国产GPU而言,专业图形市场(信创、政企、工业软件)比消费游戏市场更具现实意义:

厂商产品CAD兼容GIS支持数字孪生vGPU虚拟化多屏输出
摩尔线程S3000/S4000支持支持支持✅ 32路vGPU8K HDR
芯动科技风华3号SolidWorks实测达国际主流水平✅ 8K光追6屏8K30
砺算科技7G100专业版验证中遥感建模实景渲染✅ 16路SRIOV
象帝先伏羲A0验证中✅ 3D数字孪生Demo
景嘉微JH920中望CAD适配✅ 苍穹GIS基础4路4K60
芯瞳CQ2040基础CADGIS场景基础2-3屏
格兰菲Arise-GT10C0基础多路输出

亮点:芯动科技风华3号在SolidWorks等CAD工业软件上实现了”性能提升数倍,突破此前国产GPU运行卡顿、几乎无法使用的困境” [42480],这是国产GPU在专业图形领域的一个突破性进展。摩尔线程S3000支持32路vGPU,在云桌面/云渲染场景有独特优势 [42603]


5.7.7. 综合图形渲染能力评分

厂商API覆盖像素/纹理填充3DMark实测驱动成熟度专业图形综合评分评语
砺算科技5/54/55/53/53/54.0/5国产图形性能天花板,DX12+WHQL,但驱动和生态刚起步
摩尔线程4/55/53/54/54/54.0/5最均衡的全功能GPU,驱动迭代最勤,游戏可用但性能中端
芯动科技4/54/53/52/54/53.4/5风华3号规格亮眼(8K光追+112GB显存),但生态从零开始
象帝先4/54/53/52/53/53.2/55nm+IMG DXD架构有潜力,但公司危机后有不确定性
景嘉微2/52/52/52/53/52.2/5军工级稳定,但性能落后5-10年,API版本老旧
芯瞳2/52/51/52/52/51.8/5GT1030级别,信创办公亮机卡定位
格兰菲2/52/51/52/52/51.8/528nm落后,性能弱,但像素/纹理填充率尚可

5.7.8. 核心结论

  1. 国产图形GPU的”性能天花板”在快速抬升:砺算科技7G100(3DMark FS 26800,≈RTX 4060)和摩尔线程S80(像素填充率158 GPixel/s)代表了国产图形GPU的最高水平,但与NVIDIA最新一代(RTX 5060/RX 9060)仍有1-2代差距。

  2. “硬件底子不错,软件拖后腿”是普遍现象:摩尔线程MTT S80的像素填充率甚至超过RTX 3060,但早期驱动只能跑DX9游戏,经过36版驱动迭代才达到GTX 1650-1060的实际游戏水平。这印证了”图形GPU的核心竞争力在软件而非硬件”的行业规律。

  3. 真正具备图形能力的厂商仅约7家,占国产GPU/AI加速器厂商总数(约20家)的不到1/3。绝大多数厂商(华为昇腾、寒武纪、海光DCU、壁仞等)本质上是AI加速器,不具备图形渲染管线。

  4. 驱动成熟度是最大的短板:NVIDIA有20年+数千人的驱动团队,国产厂商驱动团队规模一般在数十到数百人。差距不是靠”多流几次片”就能弥补的,需要时间和项目积累。

  5. 专业图形(CAD/GIS/数字孪生)是国产图形GPU最现实的落地场景:政企信创市场对游戏性能要求不高,但需要稳定的CAD/GIS/多屏显示能力。芯动风华3号在SolidWorks上的突破和摩尔线程的vGPU方案,代表了这一方向的实际进展。

  6. 砺算科技的WHQL认证是里程碑事件:通过微软WHQL认证意味着驱动程序达到了Windows生态的基本稳定性要求,这是国产图形GPU走向消费市场的”通行证” [42442]

5.8. HPC能力对比

对比FP64算力、内存带宽、MPI兼容性、科学计算生态

核心洞察:HPC(高性能计算)是国产 GPU/AI 加速器与国际巨头差距最悬殊的领域,也是区分”真 GPU”与”AI 加速器”的终极试金石。AI 训练只需 FP16/BF16 精度即可运转,而传统 HPC 科学计算——计算流体力学(CFD)、分子动力学、气候模拟、金融量化——高度依赖 FP64 双精度浮点。是否具备完整 FP64 硬件单元、是否兼容 MPI 通信标准、是否拥有科学计算软件栈,是三个不可绕过的硬指标。本章聚焦这三个维度,以 NVIDIA A100/H100 为基准锚点,对国产厂商进行系统性对比与分级。


5.8.1. FP64 双精度算力:HPC 的”入场券”

FP64 双精度是 HPC 场景的核心入口。在国产厂商中,真正具备 FP64 硬件计算能力的厂商屈指可数——绝大多数厂商选择了”AI 优先”路线,将芯片面积全部用于 AI 训练/推理所需的低精度计算(FP16/BF16/INT8),不做 FP64 单元以换取更高的 AI 算力密度。这并非技术缺陷,而是 清晰的商业取舍——问题是,这个取舍使得这些芯片在传统 HPC 科学计算场景中 完全不具备竞争力

5.8.1.1. FP64 算力总览表

厂商产品FP64 算力 (TFLOPS)支持方式与 NVIDIA 对标
NVIDIA(基准)A100 SXM 80GB9.7 (CUDA Core) / 19.5 (Tensor Core)原生 FP64 单元 + Tensor Core基准
NVIDIA(基准)H100 SXM5~34 (CUDA Core) / ~67 (Tensor Core)原生 FP64 单元 + Tensor Core基准
海光DCU深算一号 Z10010.8原生 FP64 单元≈ A100 的 ~110%(FP64 向量)
海光DCU深算二号 K100具备(未公开)原生 FP64 单元约 A100 的 60-80%(估)
海光DCU深算三号 BW100030原生 FP64 单元H100 FP64 持平
华为昇腾910B/910B2不支持
华为昇腾910C不支持
寒武纪MLU590不支持ASIC,无 FP64 单元
壁仞科技BR100不支持官方明确不含 FP64
燧原科技云燧全系列不支持所有产品均不支持
天数智芯天垓100/智铠100不支持天枢架构(下一代)将支持
百度昆仑芯R300/P800不支持AI 专用,无 FP64
阿里平头哥真武 PPU未公开公开资料有限需进一步核验
摩尔线程MTT S4000宣称支持,未公开具体 TFLOPS全功能 GPU 架构短期内为象征性支持
沐曦曦云 C500宣称支持,未公开具体 TFLOPS通用 GPU 架构硬件有但算力未知
景嘉微景宏系列宣称支持 FP64智算模块未公开具体算力
芯动科技风华3号未公开宣称”支持多精度”需进一步核验

数据来源:海光DCU FP64 数据 [43265];壁仞 BR100 不含 FP64 [42915];寒武纪 MLU590 不含 FP64 [43114];燧原不含 FP64 [40121];天数智芯不含 FP64 [30709];昆仑芯不含 FP64 [44610];摩尔线程 S4000 宣称 FP64 [46372];沐曦 C500 宣称 FP64 [44360];景嘉微景宏系列宣称 FP64 [46412];NVIDIA 基准 [45453]

5.8.1.2. FP64 能力深度解读

海光 DCU — 国产 HPC 的”独苗”

海光 DCU 是国产厂商中 唯一拥有明确、可量化的 FP64 双精度算力且经过实际超算场景验证 的产品线。其技术渊源来自 AMD CDNA 架构授权,保留了完整的 FP64 计算单元,这与 NVIDIA 从 Volta 到 Hopper 持续为 HPC 保留 FP64 Tensor Core 的设计哲学一致 [43265]

  • 深算一号 Z100:FP64 10.8 TFLOPS,在国产芯片中首次实现对 A100 FP64 向量算力(9.7 TFLOPS)的超越 [43265]。北京大学 HPC 系统中标公告(HCZB-2021-ZB0364)确认了这一数据 [43265]
  • 深算二号 K100:FP64 具体数值未公开,但其 HPC 向版本明确保留了双精度计算单元 [43235]
  • 深算三号 BW1000:FP64 目标 30 TFLOPS,是国产芯片中 首次在双精度算力上对标 NVIDIA H100(H100 FP64 约 34 TFLOPS)的产品 [43390]。在 OpenFOAM 流体力学基准测试中,单节点(4 卡)性能达 1.8 TFLOPS,为 A100 的 67%,且”双精度(FP64)支持完整,优于多数国产芯片” [43439]

一个值得注意的细节:深算三号 BW1000 被业内评价为”披着 AI 外衣的高性能科学计算卡”——其架构设计重心在 FP64 而非 FP8/FP16,甚至 没有原生 FP8 硬件单元,FP8 会触发软件模拟 [43392]。这说明海光 DCU 在 AI 低精度计算上的竞争力相对有限,但在 HPC 双精度计算上具有不可替代的国产替代价值。

华为昇腾 — AI 巨兽,HPC 缺席

华为昇腾 910B/910C 的达芬奇架构(Da Vinci Architecture)核心计算单元是 3D Cube 矩阵乘法阵列(16×16×16 立体阵列),其设计目标为 AI 训练/推理所需的低精度矩阵运算(FP16/BF16/INT8),不含 FP64 双精度矢量计算单元 [45180]。这与 NVIDIA 的路线形成鲜明对比:A100/H100 的每个 SM 中同时包含 FP32/FP64 CUDA Core 和 Tensor Core,HPC 和 AI 能力兼得 [46364]

昇腾在 HPC 领域的布局是通过 AI4Science(AI 驱动科学计算) 这一替代路径:用 MindSpore Science 科学计算套件(MindSpore SPONGE 分子动力学、MindSpore Flow 流体仿真、MindSpore Earth 气象预报)在 FP16/BF16 精度下做 AI 驱动的科学计算模拟,而非传统 FP64 数值求解 [45830]。盘古气象大模型于 2023 年 7 月登 Nature 正刊,精度超越传统数值预报方法,速度提升 10000 倍 [45773]。但 AI4Science 路线并非万能——对于需要高精度数值解的 CFD 湍流模拟、分子动力学自由能计算等场景,FP64 精度依然不可替代。

其他厂商:全面缺席或停留在”纸面支持”

  • 壁仞 BR100:官方在 Hot Chips 34 上明确表态”BR100 has no FP64 support”,这是为 AI 市场做的刻意取舍 [42915]
  • 寒武纪 MLU590:ASIC 架构,AI 专用,从未在任何场景下提及 FP64 [43114]
  • 燧原科技全系列(邃思 1.0/2.0/2.5/3.0/4.0):没有任何一款产品支持 FP64 [40121]
  • 天数智芯天垓100/智铠100:均不支持 FP64 [30709];下一代”天枢”架构将引入 FP64 [43909]
  • 摩尔线程 S4000:宣称支持 FP64,但未公布具体算力 [46372]。考虑到其 48GB 显存、768 GB/s 带宽的规格定位,FP64 算力大概率属于”具有但较低”的象征性支持,无法与海光 DCU 或 NVIDIA 竞争。
  • 沐曦 C500:硬件保留 FP64 单元,但未公开算力 [44360]。这暗示其 FP64 性能可能不足以成为核心卖点。
  • 景嘉微景宏系列:宣称支持 FP64 [46412],但未公开任何算力数据。考虑到景嘉微此前以图形 GPU 为主(JM5400/JM7200/JM9 系列均为图形渲染 GPU),景宏系列是其首次进入 AI/HPC 领域,公开信息极为有限,FP64 能力和科学计算生态尚待验证 [46423]

5.8.2. 内存带宽与 HPC 访存模式

HPC 科学计算(尤其是 CFD 和分子动力学)对显存带宽的敏感度往往 高于 AI 训练。这是因为 HPC 应用中存在大量稀疏矩阵运算、非规则访存和 Stencil 计算模式,数据复用率远低于 AI 矩阵乘法,导致 Byte/FLOP Ratio 需求更高。简单来说:AI 训练是”食材虽然多但可以反复用同一批”,HPC 是”食材源源不断且几乎不重复”。

5.8.2.1. 内存带宽对比

厂商产品显存类型容量带宽 (TB/s)与 H100 差距
NVIDIA H100SXM5HBM380GB3.35基准
NVIDIA A100SXM 80GBHBM2e80GB2.0−40%
华为昇腾910CHBM2e/3128GB~3.2−4%
华为昇腾910B3HBM3e64GB1.2−64%
海光DCU深算三号HBM2e/HBM3e64-128GB1.6−52%
海光DCU深算一号 Z100HBM232GB1.0−70%
海光DCU深算二号 K100GDDR664GB0.896−73%
寒武纪MLU590HBM2e80-96GB2.0–2.7−19-40%
壁仞科技BR100HBM2e64GB2.3−31%
燧原科技云燧 T20HBM380GB2.3−31%
沐曦曦云 C500HBM2e64GB1.8−46%
摩尔线程MTT S4000未公开48GB0.77−77%
天数智芯天垓100HBM232GB1.2−64%
百度昆仑芯R300GDDR632GB0.51−85%

数据来源:NVIDIA [45089];华为昇腾 [46354];海光DCU [43258];寒武纪 [43053];壁仞 [42883];燧原 [40121];沐曦 [39683];摩尔线程 [46377];天数智芯 [43891];昆仑芯 [40441]

5.8.2.2. 关键发现

  1. 华为昇腾 910C 的 3.2 TB/s 带宽是国产之最,接近 H100 的 3.35 TB/s。但需要指出,910C 是双 Die 封装产品,实际可用带宽可能在两颗 Die 之间分配,单 Die 的带宽可能低于纸面值 [46360]

  2. 海光 DCU 深算二号 K100 使用 GDDR6 而非 HBM,这是一个值得注意的设计选择。GDDR6 的成本远低于 HBM,但带宽也大打折扣(896 GB/s vs HBM2e 的 1.0 TB/s+),这会在 HPC 访存密集型应用中形成瓶颈 [43235]

  3. 摩尔线程 S4000 和昆仑芯 R300 的带宽明显偏低(0.77 TB/s 和 0.51 TB/s),这与其定位为推理/中低端训练产品一致,但在 HPC 场景中几乎不具备竞争力。

  4. 寒武纪 MLU590 和燧原 T20 的带宽规格(2.0-2.7 TB/s)在国产中处于较高水平,但这两款芯片均不支持 FP64,因此高带宽无法转化为 HPC 双精度算力——就像一个食材传送带极快但灶台只能做”快餐”的厨房。


5.8.3. MPI 兼容性与集合通信

MPI(Message Passing Interface)是 HPC 科学计算集群的”通用语言”。绝大多数传统 HPC 应用(OpenFOAM、VASP、GROMACS、WRF 等)都基于 MPI 进行多节点并行通信。在 GPU 加速的 HPC 场景中,GPU-aware MPI(允许 MPI 直接读写 GPU 显存,绕过 CPU 中转)是性能关键。

5.8.3.1. MPI/集合通信生态对比

厂商集合通信库MPI 兼容性GPU-aware MPI通信拓扑科学计算 MPI 支持
NVIDIANCCL✅ 标准 MPINCCL + NVLink + InfiniBand完整
海光DCURCCL (ROCm)✅ 标准 MPIRCCL + xGMI + InfiniBand完整
华为昇腾HCCL✅ mpirun 启动⚠️ 有限HCCL + HCCS + 灵衢以 AI 集群为主
寒武纪CNCL⚠️ Horovod 为主⚠️ 有限CNCL + MLU-Link
摩尔线程MCCL✅ 标准 MPI⚠️ 发展中MCCL + MTLinkFortran 支持
沐曦MCCL✅ 标准 MPI⚠️ 发展中MCCL + MetaXLink测试阶段
壁仞自研❌ 非 NCCL 标准BLink
天数智芯自研✅ 兼容⚠️ 有限片间互联发展中
燧原GCU-LARE未公开未公开GCU-LARE

数据来源:海光DCU [46201];华为昇腾 HCCL [45555];寒武纪 CNCL [45750];摩尔线程 MCCL [45538];沐曦 MCCL [45714];壁仞 [45733]

5.8.3.2. 深度分析

海光 DCU:唯一具备完整 MPI 科学计算生态的国产方案

海光 DCU 的最大优势在于 全面兼容 AMD ROCm 生态,而 ROCm 又天然兼容标准 MPI 和 GPU-aware MPI。海光自研的 DTK(DCU Toolkit)基于 ROCm 深度定制,其集合通信库 RCCL(ROCm Collective Communications Library)与 NCCL 功能对齐,支持 ring 和 tree 算法,可直接集成到 MPI 应用中 [46201]。这意味着使用 OpenMPI + RCCL 的组合,海光 DCU 可以运行绝大多数传统 HPC 科学计算软件——这在国产芯片中 独一无二

华为昇腾:AI 集群通信能力强大,但 MPI 科学计算兼容性有限

华为自研的 HCCL(Huawei Collective Communication Library)对标 NCCL,已在 Gitee 开源,支持 AllReduce、AllGather、AlltoAll 等全部集合通信原语 [45227]。昇腾集群可通过 mpirun 启动 HCCL 进程 [45555]。但 HCCL 的设计目标和优化方向是 AI 分布式训练(大规模 AllReduce),而非 HPC 科学计算中常见的 MPI 点对点通信和 Stencil 通信模式。此外,昇腾的鲲鹏 HPC 生态中提供了 Hyper MPI(HMPI)通信库,已适配 170+ 常用 HPC 软件 [45799]。但 HMPI 主要面向 CPU 集群,NPU 侧的 MPI 直通仍需验证。

摩尔线程:Fortran 编译器是 HPC 的差异化优势

摩尔线程是国产厂商中 唯一宣布支持 Fortran 编译器的,这看似不起眼,却是 HPC 领域的一个关键差异化能力 [45544]。航空航天气动模拟、核物理粒子输运、气象预报等大量传统 HPC 代码仍以 Fortran 编写。Fortran 编译器的支持意味着这些代码可以直接在摩尔线程 GPU 上编译运行,而不需要先用 C/C++ 重写。但摩尔线程的 HPC 生态整体仍处于早期阶段,Fortran 支持的实际效果和性能尚待验证。

沐曦:CUDA 原生兼容带来 HPC 移植便利性

沐曦的 MXMACA 软件栈 原生兼容 CUDA,CUDA 源码可直接编译运行,迁移成功率 >92% [45715]。这意味着大量基于 CUDA 的 HPC 加速代码(如 CUDA-aware MPI 应用)可以相对容易地迁移到沐曦平台。但沐曦目前在 HPC 领域的实际部署案例有限,仅在华东师大等高校开展测试 [45725]

壁仞和寒武纪:生态封闭,HPC 兼容性最弱

壁仞的多卡通信协议 未兼容 NCCL 标准,AllReduce 延迟增加 2.3 倍 [45733]。寒武纪的 CNCL 虽然支持万卡集群(通信延迟 <2μs,千卡线性加速比 0.93),但主要基于 Horovod 分布式训练框架,与标准 MPI 的兼容性有限 [45750]。这两家厂商的 HPC 科学计算软件栈几乎为零。


5.8.4. 科学计算软件生态

HPC 的核心竞争力不仅在于硬件,更在于 能跑什么软件。一个科学计算用户(如气候模拟研究员)关心的不是芯片的 TFLOPS,而是:“我的 WRF/GROMACS/OpenFOAM/VASP 能不能在这块卡上跑?能跑多快?“

5.8.4.1. 主流科学计算软件适配状态

应用领域NVIDIA (CUDA)海光DCU (ROCm/HIP)华为昇腾其他国产
OpenFOAMCFD/流体力学✅ 成熟⚠️ 初步适配(67% A100)
VASP第一性原理/材料✅ 成熟⚠️ 技术路径清晰但未验证
GROMACS分子动力学✅ 成熟✅ 通过 ROCm 支持
LAMMPS分子动力学✅ 成熟✅ 通过 ROCm 支持⚠️ MindSpore SPONGE
WRF气象预报✅ 成熟⚠️ 有限⚠️ MindSpore Earth
ANSYS Fluent商业 CFD✅ 成熟❌ 商业授权
MATLAB通用科学计算✅ 成熟
BLAS/LAPACK基础线性代数✅ cuBLAS✅ rocBLAS/hipBLAS✅ CANN✅ 部分
FFT快速傅里叶变换✅ cuFFT✅ rocFFT/hipFFT✅ CANN✅ 部分

数据来源:海光DCU OpenFOAM [46176];海光 VASP [45889];华为 MindSpore Science [45830];NVIDIA [45450]

5.8.4.2. 生态成熟度分级

分级厂商说明
★★★★★NVIDIACUDA 生态覆盖几乎所有 HPC 应用,ISV 全面支持,无需解释
★★★☆☆海光 DCUROCm/HIP 兼容生态提供基础数学库(BLAS/FFT/SPARSE/SOLVER)和部分 HPC 应用支持,OpenFOAM 有初步基准测试,但相比 CUDA 仍有巨大差距
★★☆☆☆华为昇腾MindSpore Science 科学计算套件(SPONGE/Elec/Flow/Earth)覆盖部分领域,盘古气象是亮点,但传统 HPC 应用(OpenFOAM/VASP/GROMACS)支持缺失
★☆☆☆☆沐曦 / 摩尔线程数学库初步建立(通过 CUDA 兼容),部分高校测试中,但无商业 HPC 部署案例
☆☆☆☆☆其他厂商寒武纪、壁仞、燧原、天数、昆仑芯等均无 HPC 科学计算生态,属于”零基础”

5.8.5. HPC 综合能力矩阵

将 FP64 算力、内存带宽、MPI 兼容性、科学计算生态四个维度整合,得出国产厂商的 HPC 综合能力评估:

厂商FP64 算力内存带宽MPI 兼容性科学计算生态HPC 综合评级一句话总结
NVIDIA H100★★★★★★★★★★★★★★★★★★★★SHPC 领域的绝对王者
NVIDIA A100★★★★☆★★★★☆★★★★★★★★★★A+上一代 HPC 黄金标准
海光 DCU★★★★☆★★★☆☆★★★★☆★★★☆☆B+国产 HPC 唯一可选项
华为昇腾☆☆☆☆☆★★★★☆★★★☆☆★★☆☆☆C+AI4Science 可,传统 HPC 不可
沐曦★★☆☆☆★★★☆☆★★☆☆☆★☆☆☆☆C有 FP64 硬件但生态空白
摩尔线程★☆☆☆☆★★☆☆☆★★☆☆☆★☆☆☆☆C-Fortran 是亮点,其余待验证
景嘉微★☆☆☆☆未公开未公开☆☆☆☆☆D宣称支持但无数据
寒武纪☆☆☆☆☆★★★★☆★☆☆☆☆☆☆☆☆☆DAI 专用,HPC 不适用
壁仞☆☆☆☆☆★★★★☆★☆☆☆☆☆☆☆☆☆DAI 算力高但 HPC 零分
燧原☆☆☆☆☆★★★★☆★☆☆☆☆☆☆☆☆☆D与 HPC 完全无关
天数智芯☆☆☆☆☆★★★☆☆★★☆☆☆☆☆☆☆☆D下一代将支持 FP64
昆仑芯☆☆☆☆☆★☆☆☆☆★☆☆☆☆☆☆☆☆☆D-带宽是硬伤

5.8.6. 架构师洞察:为什么国产 HPC 这么难?

从业内视角看,国产 GPU 在 HPC 领域的全面落后,并非偶然,而是 三个结构性原因 的叠加:

第一,市场优先级决定了架构取舍。 AI 大模型训练的市场规模、紧迫性和商业回报远高于 HPC 科学计算。一家国产 GPU 创业公司,把有限的芯片面积和工程资源投入 FP16/BF16 低精度计算(能立刻拿到大模型训练订单),还是投入 FP64 双精度(面向高校和科研院所的小众市场),这是一个不需要思考的选择。海光 DCU 之所以能做 FP64,是因为其技术源自 AMD CDNA——一个本就服务于美国 DOE 超算(Frontier、El Capitan)的架构——而非自主设计。

第二,HPC 软件生态是”先有鸡还是先有蛋”的死锁。 科学计算软件(如 OpenFOAM、VASP、ANSYS Fluent)的 GPU 加速版本几乎全部基于 CUDA 编写,而 CUDA 对 FP64 的支持又深度绑定 NVIDIA 硬件。要打破这个死锁,需要国产厂商同时做三件事:造出有 FP64 的硬件、写出兼容 CUDA 的软件栈、说服 ISV 移植——而这三件事都需要巨额资金、漫长时间和顶级人才。海光 DCU 通过兼容 ROCm/HIP 跳过了第二件事,但仍面临第三件事的挑战。

第三,HPC 集群的互联要求远高于 AI 集群。 AI 训练的通信模式相对规整(AllReduce 为主),而 HPC 科学计算中存在大量 MPI 点对点通信、不规则通信和全局同步——这对互联带宽、延迟、拓扑灵活性和 InfiniBand/RDMA 支持提出极高要求。华为昇腾虽然在 AI 集群互联上做到了 384 卡全互联(灵衢协议),但这是为 AI 训练的 AllReduce 优化的,与 HPC 所需的 MPI 通信模式存在根本性差异 [45509]

一个冷峻的结论:在未来 3 年内,如果你需要国产芯片做传统 HPC 双精度科学计算,海光 DCU 几乎是唯一的选择。这不是因为它有多好,而是因为其他厂商根本没有做这件事。到 2027-2028 年,如果天数智芯的”天枢”架构如期支持 FP64 [43909]、海光深算三号量产成熟、沐曦和摩尔线程逐步建立 HPC 生态,局面可能会有改善——但到那时,NVIDIA 的 Blackwell/Rubin 架构可能已经将 FP64 算力推向 100+ TFLOPS 级别。国产芯片在 HPC 领域的追赶,依然任重道远。


5.9. 软件生态成熟度对比

对比框架支持、算子覆盖度、编译工具链、调试调优工具

软件生态是 GPU/AI 加速器从“能用”走向“好用”的分水岭,也是国产芯片与 NVIDIA 差距最悬殊的维度。CUDA 历经近 20 年积累,拥有超过 500 万注册开发者、数百万个 CUDA 应用、近乎 100% 的算子覆盖率以及一套极为成熟的编译器‑调试器‑性能分析器工具链 [1]。国产厂商的软件栈无一例外地处于追赶状态,但追赶速度、策略和路径差异显著——这直接决定了各厂商在商业化落地中的实际竞争力。

架构师注:评估软件栈成熟度,不能只看“是否支持 PyTorch”。一颗芯片即使纸面支持 PyTorch,如果算子覆盖不全(大量算子回退到 CPU 执行)、编译优化不足(kernel launch 开销大)、缺乏调试工具(精度问题排查困难)、通信库效率低(多卡 scaling 差),其实际使用体验可能比 NVIDIA 同规格产品差 5‑10 倍。软件栈的“最后一公里”往往比硬件本身更难跨越。

5.9.1. 软件生态成熟度总览表

维度华为昇腾寒武纪海光 DCU摩尔线程壁仞科技百度昆仑芯燧原科技沐曦天数智芯阿里平头哥(真武)瀚博登临景嘉微
软件栈名称CANNNeuWareDTKMUSABIRENSUPAXTCL+XTDKTopsRiderMXMACACorex SDKT-Head SAILVastStreamGPU+
自主指令集是(DaVinci)是(BANG)否(兼容ROCm)是(MUSA)是(壁立仞)是(XPU)是(GCU-CARA)否(图形GPU)
CUDA 兼容策略独立生态兼容+自有HIP兼容MUSIFY转换兼容部分兼容不兼容深度兼容高度兼容深度兼容自有兼容无关
PyTorch 适配⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
TensorFlow 适配⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
PaddlePaddle 适配⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
vLLM 适配⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Triton 语言支持⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
算子覆盖度(估算)90%+~85%99%+85%+75%+80%+70%+90%+80%+90%+60%+60%+<30%
算子数量(公开)1500+基础+100+融合上百种2000+10000+ Kernel未公开未公开1600+2650核心+2200+高性能未公开丰富的闭源库未公开未公开有限
编译工具链⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
调试工具⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
性能分析工具⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
多卡/集群通信⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
开源状态全面开源(2025.8)部分开源(Torch-MLU)基于ROCm开源部分开源推动中(2026)未开源未开源核心代码开源部分开源未开源未开源未开源闭源
综合评分4.5/53.5/54.5/53.5/52.5/53.5/52.5/54.0/53.5/54.5/52.0/52.0/51.5/5

评分说明:综合评分基于框架支持广度(20%)、算子覆盖度(25%)、编译工具链(20%)、调试调优工具(20%)、集群通信(15%)加权计算。⭐数越多越好,但非严格线性对应。

基准参考——NVIDIA CUDA 生态:CUDA Toolkit 12.x,cuDNN/cuBLAS/cuFFT/NCCL 等全套加速库,Nsight Systems/Compute 性能分析,cuda-gdb 调试器,500 万+开发者,近乎 100% 算子覆盖——在所有维度均为满分 5/5。

5.9.2. 框架支持深度分析

框架支持是软件生态的“入口”,决定了开发者能否以最低成本将现有模型迁移到国产硬件上。国产厂商的框架适配策略大致分为三类:

5.9.2.1. 第一梯队:全框架原生支持

厂商PyTorch 适配方式适配版本范围社区跟进速度其他框架
华为昇腾torch_npu 插件 + 原生 MindSporePyTorch 1.11-2.x社区版发布后 1-2 月TensorFlow, PaddlePaddle, JAX, MindSpore
海光 DCUHIP 兼容层,直接运行 PyTorch ROCm 版PyTorch 2.1-2.4+(DTK 24.04/25.04)依赖 ROCm 社区节奏TensorFlow, PaddlePaddle, JAX, MXNet
沐曦torch_maca 插件PyTorch 2.0-2.8较快TensorFlow, PaddlePaddle, JAX, Megatron-LM, DeepSpeed [47418]
阿里真武深度兼容 CUDA 生态,原生 PyTorch24.11 / 25.02 / 25.07 / 25.11 / 26.04极快(阿里云主力)Triton 2.3-3.5, vLLM, SGLang, DALI, OpenCV [48627]
天数智芯兼容 CUDA 10.2 生态,主流框架全覆盖PyTorch 2.x 及旧版较快TensorFlow, PaddlePaddle, vLLM, TensorRT [47385]

关键洞察

  • 华为昇腾的框架策略最全面,既有自研 MindSpore 作为“护城河”,又通过 torch_npu 积极拥抱 PyTorch 生态。2025 年 8 月 CANN 全面开源后,第三方框架接入门槛进一步降低 [46490]
  • 海光 DCU 直接复用 AMD ROCm 的 PyTorch 适配,开发者甚至不需要安装额外插件即可运行,这使其在框架兼容性上与 NVIDIA 差距最小 [46670]
  • 阿里真武的框架支持得益于阿里云内部的全栈整合,SAIL SDK v2.1 已兼容 CUDA 13.0 APIs 和 Triton 3.5.x,几乎可以零修改运行绝大多数 CUDA PyTorch 代码 [48627]
  • 沐曦在 2025 年完成了对 PyTorch 2.8 的深度适配,覆盖全部 2650 个核心算子,并支持 Megatron-LM、DeepSpeed 等大模型训练框架 [47418]
  • 天数智芯的软件栈高度兼容 CUDA 10.2,对 TensorFlow、PyTorch、PaddlePaddle 等主流框架的覆盖较为完整,但版本较旧,对新特性(如 PyTorch 2.x torch.compile)支持尚不确定 [47387]

5.9.2.2. 第二梯队:主流框架覆盖,但有短板

厂商优势短板
寒武纪Torch-MLU 开源插件(PyTorch 2.1-2.8),社区版 2 周内适配 [46478]早期需定制版 PyTorch(已解决),JAX 支持有限
摩尔线程Torch-MUSA 插件(v2.7.0),JAX/TensorFlow 新增支持(MUSA 5.0) [46813]TensorFlow 支持刚起步,社区版跟进速度待验证
百度昆仑芯飞桨深度优化,vLLM-Kunlun 即插即用 [47399]PyTorch 支持依赖 XTCL 编译器,非飞桨场景体验下降
壁仞科技兼容 PyTorch/TensorFlow/PaddlePaddle,支持 Triton、TileLang [47263]受制裁影响,生态建设速度受限,调试工具薄弱 [47261]

寒武纪 的 Torch-MLU 策略值得关注:2024 年 9 月,寒武纪开源了 Torch-MLU 原生插件,使得开发者无需安装定制版 Cambricon PyTorch,直接基于社区 PyTorch 安装插件即可使用 MLU [46478]。寒武纪还承诺在社区版本发布后 2 周内实现 MLU 适配 [46478]

摩尔线程 的 Torch-MUSA 已经迭代至 v2.7.0,并在 MUSA 5.0 中新增了对 TensorFlow 和 JAX 的支持 [46813]。但其框架覆盖的广度和成熟度仍不及华为、海光等第一梯队。

5.9.2.3. 第三梯队:框架覆盖有限或独立生态

厂商现状风险
燧原科技独立 TopsRider 生态,不兼容 CUDA,支持 PyTorch/TensorFlow [47303]生态封闭,开发者迁移成本高,长期孤立风险
瀚博半导体通过 torch-vacc/vllm-vacc 适配,支持 PyTorch 2.8 [47576]主要面向推理场景,训练框架支持弱
登临科技兼容 CUDA/OpenCL,支持 PyTorch/TensorFlow/飞桨 [47545]框架适配深度有限,大模型支持尚在完善
景嘉微通过 vLLM 适配 DeepSeek R1 部分模型 [47674]主要为图形 GPU,AI 计算生态极为薄弱

架构师注:燧原科技的“不兼容 CUDA”策略是一把双刃剑。从技术自主角度看,完全自研指令集和软件栈避免了知识产权风险;但从商业角度看,这意味着每个模型都需要手动适配,客户迁移成本极高。在 AI 模型快速迭代的今天,这种策略的可持续性存疑。不过,燧原 2026 年 Q1 营收暴增 1474.85% 至 2.87 亿元,说明独立生态在特定场景(如政府项目)仍有一定市场 [47314]

5.9.3. 算子覆盖度深度分析

算子覆盖度是衡量软件生态成熟度的核心指标。一个 PyTorch 模型可能包含数百种算子,如果目标硬件不支持某些算子,就只能回退到 CPU 执行,导致性能断崖式下降。算子覆盖度 90% 和 95% 之间的差距,在实际大模型推理中可能意味着 3‑5 倍的性能差异。

5.9.3.1. 算子覆盖度估算对比

厂商公开算子数估算覆盖度覆盖度依据主要短板
海光 DCU2000+ [47000]99%+DAS 集成 2000+ 算子,CUDA 核心组件功能覆盖率 100% [47024]基于 ROCm,AMD 原生不支持的特殊 CUDA 特性
华为昇腾1500+ 基础 + 100+ 融合 [46496]90%+MindSpore Ascend 侧算子满足度 90%+ [46996]部分小众算子,动态 shape 算子
沐曦2650 核心 + 2200+ 高性能 [47476]90%+覆盖 PyTorch 全部 2650 核心算子,支持 6000+ CUDA 应用 [47421]部分最新 PyTorch 算子需跟进
阿里真武未公开总数90%+acdnn/acblas/acfft/acsolver + CUTLASS 3.6 + FlashAttention 全系列 [48627]面向阿里云优化,通用场景需验证
寒武纪上百种基本算子 + 组合~85%第三方分析估算 [46863];10 万开发者 vs NVIDIA 500 万+ [46863]部分小众 CV/NLP 算子,动态 shape 场景
摩尔线程10000+ Kernel(MUSACODE 生成)[46835]85%+Triton-MUSA 100% 覆盖 [46817];GEMM 利用率 98%,FlashAttention 利用率 95% [46809]部分老旧 CUDA 库对应算子
天数智芯未公开80%+450+ AI 模型,900+ 次部署 [47454]版本较旧(CUDA 10.2),新特性覆盖不足
百度昆仑芯未公开80%+XDNN 高性能算子库,Day0 无新增算子模型适配 [47405]飞桨生态外覆盖度下降
壁仞科技未公开75%+支持主流框架 + Triton + TileLang [47263]受制裁影响,迭代速度慢
燧原科技1600+ [47317]70%+支持 200+ 款主流大模型 [47317]不兼容 CUDA,每个模型需手动适配
瀚博半导体未公开60%+VACL 推理接口 + 自研算子库,偏 CV 场景通用 NLP/大模型算子覆盖不足
登临科技未公开60%+GPU+ 兼容 CUDA/OpenCL,但深度有限公开资料有限,需进一步核验
景嘉微未公开<30%主要面向图形渲染,计算侧仅 OpenCL 3.0 + 有限 AI 框架适配非 AI 芯片,计算生态薄弱

重要说明:以上算子覆盖度部分为估算值(标注“估算”),基于公开资料中可获取的算子数量、框架适配范围、第三方评测等综合判断。确切覆盖度需要在实际工作负载中测试,“公开资料有限”的标注意味着该数字存在较大不确定性。

5.9.3.2. 算子覆盖的“冰山效应”

  • 海光 DCU 的 99%+ 覆盖度 最为亮眼:因为它直接复用 ROCm 生态,而 ROCm 本身经过 AMD 多年打磨,算子丰富度仅次于 CUDA [47027]。但需注意,“对标 CUDA 算子”不等于“100% 兼容 CUDA 所有算子”——部分 NVIDIA 特有的 CUDA 特性(如 CUDA Graph 的高级用法、特定版本的 CUTLASS 模板)可能无法直接映射。

  • 沐曦的 2650 核心算子 + 6000+ CUDA 应用 值得关注:作为一家较晚成立的公司,其算子覆盖度激进追赶,且 CUDA 项目自动迁移成功率超 92% [47424]。但“覆盖”和“高效覆盖”是两回事——沐曦的算子实现在某些场景下可能性能不及 NVIDIA 原生实现。

  • 摩尔线程的 MUSACODE 万级 Kernel 是一个差异化策略:通过 AI 辅助自动生成 Kernel,理论上可以快速覆盖长尾算子 [46835]。但 AI 生成的 Kernel 质量和性能一致性需要持续验证。

5.9.4. 编译工具链深度分析

编译工具链是软件栈的“发动机”,决定了算子能否被高效地映射到硬件上执行。国产厂商的编译器策略大致分为三类:

5.9.4.1. 编译器策略分类

策略厂商编译器底层框架特点
自研+开源华为昇腾毕昇编译器 + Ascend C自研,2025 年开源开放 AscendNPU IR,对接 Triton/FlagTree/TileLang [46542]
自研+开源寒武纪CNCC + CNASClang/LLVM编译效率达 CUDA 90% [46565];支持 LTO/PGO 等高级优化
自研+开源摩尔线程MCC + Triton-MUSA + FlagTree + MTX IR自研,编译器性能 MUSA 5.0 提升 3 倍 [46809]多编译器策略,覆盖不同层级优化需求
自研+开源沐曦MACA 编译器自研支持 MACA C/C++/Fortran [47420]
自研+开源阿里真武ppu-clangClang/LLVM完整兼容 CUDA C/C++ + inline PTX [48800]
兼容复用海光 DCUhipccLLVM(ROCm 社区)直接复用 AMD ROCm 编译器,成熟度最高 [47039]
自研闭源百度昆仑芯XTCL + XTDKLLVM(定制化 Clang 前端)AOT/JIT 双模式,飞桨深度优化 [47289]
自研闭源燧原科技JIT 编译器 + C++ DSL自研算子融合编译器(ResNet-50 7 层融合,减少 35% kernel launch 开销)[47373]
自研闭源壁仞科技BRCC自研原创编译器,与 BIRENSUPA 编程模型协同 [47268]
自研闭源天数智芯Corex 编译器自研兼容 CUDA 等效 API [47384]
自研闭源瀚博AI 编译器自研高度定制,面向推理优化 [47578]

5.9.4.2. 编译器的“隐藏差距”

维度NVIDIA (nvcc)国产标杆其他国产厂商
编译速度快(成熟优化)华为毕昇/阿里ppu-clang(接近)部分厂商编译慢 2-5 倍
kernel launch 开销极低(~3-5μs)华为/海光(~5-10μs)部分厂商 ~20-50μs
动态 shape 支持成熟华为/寒武纪(持续改善中)多数厂商弱
Triton 编译器Triton→CUDA(成熟)摩尔线程 Triton-MUSA 100% 覆盖 [46817]华为/寒武纪/沐曦有支持,其他弱
torch.compile 支持原生沐曦深度支持 PyTorch 2.0 torch.compile [47478]多数厂商有限
自动融合成熟华为 MindSpore 无图融合 [46984]燧原 7 层融合优化 [47373]

架构师注:kernel launch 开销是国产编译器与 NVIDIA 之间最被低估的差距。在推理场景中,尤其是小 batch 推理时,kernel launch 开销可能占据 30-50% 的总延迟。NVIDIA 通过 CUDA Graph 等技术将 kernel launch 开销降至 3-5μs,而多数国产编译器在 10-50μs 区间。这意味着即使算子性能相同,国产芯片在小模型推理场景中可能慢 20-40%。

5.9.5. 调试调优工具完备度分析

5.9.5.1. 调试调优工具矩阵

工具类别NVIDIA华为昇腾寒武纪海光 DCU摩尔线程沐曦阿里真武天数智芯其他厂商
IDE 集成Nsight IDEMindStudioMUSA for VS Code多数无
GPU 调试器cuda-gdbmsDebugCNGDBrocGDB [47071]PPU GDB [48627]ixGDB [47456]少数有
内存检测cuda-memcheckmsSanitizerCNSanitizerCompute Sanitizer [46647]PPU MemCheck多数无
Kernel 性能分析Nsight ComputemsProfCNPerf [46866]rocprofiler-compute [47220]Moore Perf Compute [47515]Asight ComputeixPROF [47456]少数有
系统级时间线Nsight SystemsMindStudio InsightCNPerf-GUI [46890]rocprofiler-systems [47223]Moore Perf System [47521]Asight Systems少数有
自动调优AOE [46989]CNAdvisor [46866]MUSACODE [46835]多数无
设备监控nvidia-sminpu-smiCNMonhy-smiPPU SMIixSMI多数有
精度调试TorchDump [46845]MCTX [47482]多数无
可视化 RooflinemsInsightMoore Perf Compute [47515]多数无

5.9.5.2. 分梯队评估

第一梯队(工具链完整度接近 NVIDIA 80%+)

  • 华为昇腾:拥有最完整的调试调优工具链——MindStudio 一站式 IDE、msDebug(NPU 侧单步调试)、msSanitizer(内存越界/泄漏检测)、msProf(CANN+NPU 双层性能分析)、AOE 自动调优引擎、MindStudio Insight 可视化分析 [46783]。这套工具链的完整度在国产厂商中遥遥领先,已接近 NVIDIA Nsight 系列的 80% 功能覆盖。

  • 阿里真武:PPU GDB + PPU MemCheck + Asight Systems/Compute + PPU SMI/DCGM,工具链对标 NVIDIA 最为直接 [48627]。受益于阿里云内部大规模使用驱动,工具链成熟度快速提升。

  • 寒武纪:CNGDB(对标 cuda-gdb)+ CNSanitizer(2024-2025 年新增)+ CNPerf(对标 nvprof)+ CNPerf-GUI(对标 Nsight Systems)+ CNAdvisor(自动调优建议)[46866]。寒武纪是除华为外唯一具备“自动性能建议”能力的厂商,CNAdvisor 可根据性能调优经验库自动分析问题并给出优化建议。

第二梯队(基本工具链可用,但生态不完整)

  • 海光 DCU:rocprofiler + rocGDB + roctracer + hy-smi,工具链继承自 ROCm 生态,功能成熟但缺乏自动调优和智能诊断能力 [47071]
  • 沐曦:MCTX 分层性能监测(Level 0→2 逐级细化)[47482],但公开的工具链细节少于华为/寒武纪。
  • 天数智芯:ixGDB + ixPROF + ixSMI,工具链对标 CUDA 生态直接,但功能丰富度有限 [47456]
  • 摩尔线程:Moore Perf System + Compute Sanitizer + MUSACODE AI 辅助,但 GPU 调试器(对标 cuda-gdb)缺失 [46647]

第三梯队(工具链明显薄弱)

  • 壁仞科技:仅 brsmi 设备管理工具,调试工具被开发者反馈为“功能不够丰富,缺乏成熟的错误排查生态” [47261]
  • 燧原科技:依赖 GDB + ddeb 符号包,无专用 GPU 调试器 [47363]
  • 百度昆仑芯:torch_xray 精度对齐 + PyTorch Profiler,工具链偏上层,底层硬件分析能力有限 [47405]
  • 瀚博、登临、景嘉微、象帝先:工具链信息极少公开,或仅提供基础设备管理工具。

架构师注:调试工具是国产 GPU 软件栈中最被忽视但最关键的短板。NVIDIA 的 cuda-gdb 可以在 GPU kernel 中设置断点、单步执行、查看寄存器状态——这对于解决精度问题(如训练 loss NaN、推理结果异常)是不可或缺的。绝大多数国产厂商缺乏这一能力,导致开发者在遇到精度问题时只能“盲调”——通过打印中间结果来二分查找问题,效率极低。这也是为什么很多 AI 团队在国产芯片上“能跑起来但不敢上生产”的核心原因之一。

5.9.6. 集群通信与多卡扩展能力

厂商通信库对标 NCCL通信效率关键特性
华为昇腾HCCL高(CANN 8.x 持续优化)15 个通信算法,支持 DeepEP 优化
海光 DCURCCL✅(原生 ROCm)继承 ROCm 生态,成熟稳定
阿里真武PCCL + PPU DeepEP兼容 NCCL API,DeepEP 深度优化 [48637]
摩尔线程MCCL97% [46809]MT DeepEP 将开源
寒武纪CNCL中高支持大规模专家并行 [47125]
沐曦MCCL中高高性能集合通信 [47494]
天数智芯自有通信库公开资料有限
百度昆仑芯自有通信库中高昆仑芯超节点,卡间互联带宽提升 8 倍 [47281]
壁仞科技自有通信库受制裁影响,多卡 scaling 数据有限
燧原科技自有通信库分布式训练效率提升 30% [47367]

关键差异:通信库的差距不仅在于 API 兼容性,更在于通信算法(AllReduce ring/tree、All-to-All 等)的实现效率和与硬件的耦合优化。华为 HCCL 和阿里 PCCL 在千卡/万卡集群中经过了真实大规模训练验证,而多数其他厂商的通信库尚缺乏大规模验证的公开数据。

5.9.7. CUDA 迁移工具链对比

厂商迁移工具自动化程度迁移效率关键限制
摩尔线程MUSIFY自动文本替换90%+ 语法兼容,减少约 50% 迁移时间 [46517]需手动验证性能,部分复杂 CUDA 特性需手动适配
沐曦自动代码转换工具自动+手动成功率 92%+,中等复杂度应用仅需 1 人天 [47424]复杂 CUDA 应用可能需额外调优
阿里真武原生 CUDA 兼容近乎零修改兼容绝大多数 CUDA Runtime/Driver API [48627]阿里云生态绑定,外部使用场景有限
海光 DCUhipify-clang/hipify-perl自动+手动迁移成本降低约 70%,约 15 人天 [46672]复杂 CUDA 特性(如 CUDA Graph 高级用法)需手动适配
寒武纪GPU Migration 一键迁移工具自动+手动公开数据有限自定义算子(BANG C 编写)需单独适配 [46565]
天数智芯代码迁移工具自动+手动新一代平台迁移效率提升 80%+ [47245]基于 CUDA 10.2,新特性需手动适配
华为昇腾torch_npu 自动映射 + 手动适配半自动典型模型迁移 1-4 周需学习 Ascend C 进行深度优化
壁仞科技兼容 CUDA 编程模型手动为主迁移隐性成本高,调试工具链不成熟 [47261]调试困难是最大痛点
燧原科技无 CUDA 迁移工具全手动每个模型需独立适配不兼容 CUDA,生态封闭

摩尔线程 MUSIFY 的独特价值:MUSIFY 本质是一个基于 JSON 映射表的文本替换工具,将 CUDA 相关的 API、类型、宏替换为 MUSA 对应接口 [46580]。这种方法的优势在于简洁、高效,能解决 90% 以上的语法问题;劣势在于无法处理 CUDA 特有的硬件特性(如 Tensor Core 的特定用法)。但考虑到摩尔线程 GPU 的架构设计本身就高度对标 NVIDIA,这种“语法级别兼容”在实际中效果出奇好——某大型互联网公司通过 MUSIFY 将 AI 模型迁移时间减少了约 50% [46650]

5.9.8. 软件生态成熟度综合评估

5.9.8.1. 分梯队排名

梯队厂商综合评分核心优势核心短板
T1华为昇腾4.5/5工具链最完整(MindStudio 全家桶),CANN 全面开源,MindSpore 自研框架学习曲线陡峭(Ascend C),社区规模仍远小于 CUDA
T1海光 DCU4.5/5直接复用 ROCm 生态,99%+ 算子覆盖,迁移成本最低底层依赖 AMD ROCm,受上游社区节奏影响
T1阿里真武4.5/5深度 CUDA 兼容,阿里云全栈优化,工具链对标 NVIDIA生态封闭在阿里云体系内,外部推广路径不清晰
T2沐曦4.0/5算子覆盖广(2650 核心),CUDA 迁移成功率 92%+,开源策略成立时间短,大规模生产验证不足
T2寒武纪3.5/5上市资金充裕,Torch-MLU 开源策略,工具链迭代快架构来源争议,算子覆盖度 85%,开发者仅 10 万
T2摩尔线程3.5/5MUSIFY 迁移效率高,MUSA 5.0 全面升级,全功能 GPU 路线图形驱动成熟度不足,AI 算力偏低,财务压力
T2百度昆仑芯3.5/5飞桨深度绑定,百度内部大规模验证,P800 性能强劲飞桨生态外体验下降,独立上市进程不确定
T2天数智芯3.5/5CUDA 兼容度高,PD 分离技术,DeepSpark 社区技术路线偏旧(CUDA 10.2),新特性跟进慢
T3壁仞科技2.5/5硬件架构先进(Chiplet+7nm),MLPerf 成绩亮眼制裁影响生态建设,调试工具链弱,量产受阻
T3燧原科技2.5/5全自研独立生态,1600+ 算子,200+ 模型适配不兼容 CUDA,生态封闭,迁移成本极高
T4瀚博半导体2.0/5推理专用优化,能效比突出软件栈偏窄(推理为主),通用性不足
T4登临科技2.0/5能效比高,GPU+ 异构架构软件栈公开资料极少,生态规模有限
T5景嘉微1.5/5图形 API 覆盖完整(JM11),信创生态深厚非 AI 计算芯片,通用计算生态薄弱
T5象帝先1.5/5伏羲 DXD 架构原生支持最新图形 API2024 年危机重创软件生态,驱动公开分发渠道缺失

5.9.8.2. 核心结论

  1. “伪兼容”vs“真兼容”:部分厂商宣称“支持 PyTorch”,但实际仅支持 PyTorch 的一个子集——大量算子回退到 CPU 执行,导致实际性能远低于预期。海光 DCU 和阿里真武的“真兼容”策略(通过 ROCm/自研 CUDA 兼容层)在开发者体验上显著优于其他厂商。

  2. 开源是生态加速器,但不是万能药:华为 2025 年 8 月 CANN 全面开源是标志性事件,MindSpore 社区已有 3.7 万核心贡献者 [46765]。但开源不等于生态繁荣——需要持续的社区运营、文档建设、开发者支持。寒武纪 Torch-MLU 开源和沐曦 MXMACA 开源都是积极的信号,但尚需时间验证其社区牵引力。

  3. 调试工具链是最大短板:除华为昇腾和阿里真武外,几乎所有国产厂商的 GPU 调试能力都严重不足。缺乏类似 cuda-gdb 的 kernel 级调试器,意味着开发者在遇到精度问题时只能“盲调”。这是国产芯片从“预研测试”走向“生产部署”必须跨越的门槛。

  4. CUDA 迁移工具的两条路径:摩尔线程 MUSIFY 的“语法替换”路线和阿里真武的“原生兼容”路线代表了两种不同的解题思路。前者实施成本低但覆盖度有限,后者体验最佳但技术门槛极高。目前看,阿里真武的路线更接近“终极方案”,但仅限于阿里云生态;MUSIFY 的路线更具备跨厂商推广价值。

  5. 独立生态路线的生存空间:燧原科技的不兼容 CUDA 策略在信创/政府市场仍有生存空间(2026 年 Q1 营收暴增 1474.85% 证明了这一点 [47314]),但长期来看,随着 AI 模型迭代加速,独立生态的维护成本将指数级增长。除非燧原能建立起足够大的开发者社区形成正向循环,否则可能被边缘化。

5.10. CUDA迁移难度对比

对比对CUDA代码的兼容性、迁移工具链、需重写的代码比例

本小节从 CUDA兼容策略、迁移工具链、代码修改比例、典型迁移人天、算子覆盖度、关键限制 六个维度,对国产GPU/AI加速器厂商的CUDA代码迁移难度进行系统性对比。这是产业投资人和技术决策者最关心的核心问题之一——迁移成本直接决定了国产替代的可行性和TCO(总拥有成本)

在展开之前,需要先厘清一个关键概念:“CUDA兼容”是一个被严重泛化的营销术语。实际上,国产厂商对CUDA的“兼容”至少存在四个层级:

层级技术含义典型厂商实际迁移难度
L1:二进制兼容直接运行CUDA编译后的二进制文件(.cubin)无任何国产厂商能做到零迁移
L2:源码级API兼容CUDA源码重新编译即可运行,API一对一映射摩尔线程、沐曦、天数智芯、海光DCU、壁仞低-中
L3:框架适配层通过PyTorch/TensorFlow插件拦截调用,上层代码基本不改燧原、昆仑芯、登临中低
L4:完全自研软件栈需用自研编程语言/API重写,无CUDA兼容层华为昇腾、寒武纪

架构师点评:NVIDIA在2024年通过CUDA 11.6+ EULA明确禁止通过转译层在非NVIDIA硬件上运行CUDA程序 [49038]。这意味着L1层级的二进制转译路线(如ZLUDA方案)已被法律封堵。目前所有国产厂商的”兼容”走的都是L2/L3层级的源码级重新编译路线,这在法律上是合规的——但代价是需要开发者投入真实的工程时间进行代码修改、重新编译、调试和性能调优。


5.10.1. 各厂商CUDA迁移策略与技术路线总览

厂商软件平台兼容层级核心迁移工具编程模型与CUDA的关系
摩尔线程MUSAL2MUSIFY(自动源码转换)MUSA C/C++,≈CUDA超集API一对一映射,.cu.mu
沐曦MXMACAL2cu-bridge(编译桥接)+ MACA SDKMXMACA C/C++,≈CUDA源码级兼容,重新编译即运行
天数智芯IXUCAL2CoreX SDK + 兼容头文件CoreX C/C++,≈CUDAlibcuda.so替换,类CUDA API
海光DCUDTK (ROCm)L2hipify-clang(自动转换)+ HIPHIP C/C++,≈CUDA子集通过ROCm生态间接兼容CUDA
壁仞科技BIRENSUPAL2BRCC编译器 + 兼容头文件BIRENSUPA C/C++部分API兼容,需手动迁移
登临科技HammingL2GPU+ 工具链GPU+ C/C++,兼容CUDA/OpenCL硬件直接兼容CUDA加速
燧原科技驭算TopsRiderL3torch_gcu.transfer_to_gcu()GCU C/C++(自研)PyTorch层拦截,非CUDA兼容
昆仑芯XPU SDKL3vLLM-Kunlun Plugin + XTCLXPU C/C++(自研)框架层伪装CUDA后端
阿里平头哥真武PPU SDKL2自研工具链(详情未公开)PPU C/C++宣称CUDA兼容度>99%
华为昇腾CANN / CANNNextL4torch_npu + 算子映射工具Ascend C / TBE(自研)完全自研,需代码重写
寒武纪Cambricon NeuWareL4BANG C编译器 + CNRTBANG C(自研)完全自研,需代码重写
瀚博半导体VastStream / VUCAL3VastStream SDKVUCA C/C++(自研)框架层适配,非CUDA兼容
景嘉微L4OpenCL工具链OpenCL仅OpenCL,无CUDA路径

5.10.2. 各厂商迁移工具链与自动化程度对比

厂商自动化迁移工具自动化程度典型转换范围需手动处理的部分
摩尔线程MUSIFY★★★★☆CUDA语法→MUSA语法,90%+自动转换 [48860]性能调优、warp-level原语、第三方库依赖
沐曦cu-bridge★★★★★CUDA源码→MXMACA,92.94%直接运行 [48991]编译配置(约6%项目需微调),NVML相关代码
海光DCUhipify-clang★★★★☆CUDA API→HIP API,自动转换率高ROCm版本兼容性、miopen缓存问题 [48844]
天数智芯兼容头文件+libcuda.so替换★★★☆☆CUDA API调用→CoreX APIwarp size差异(64 vs 32),__syncwarp()[49073]
壁仞科技BRCC编译器★★☆☆☆部分CUDA API→BIRENSUPA API核心算法重构~35%,矩阵运算优化 [48918]
登临科技Hamming工具链★★★☆☆CUDA/OpenCL→GPU+性能调优,片内异构调度优化
燧原科技transfer_to_gcu()★★★☆☆PyTorch CUDA调用→GCU调用自定义CUDA Kernel需重写为TopsCC
昆仑芯vLLM-Kunlun Plugin★★★☆☆vLLM框架层CUDA后端→XPU后端非vLLM场景需手动适配
华为昇腾torch_npu + KernelCAT★★☆☆☆.cuda().npu(),部分算子自动映射自定义CUDA Kernel需重写为Ascend C/TBE [49243]
寒武纪BANG C编译器★☆☆☆☆无自动CUDA转换全量代码重写为BANG C [48944]

5.10.3. 代码修改比例与典型迁移人天

这是投资人最关心的量化指标。以下数据基于公开技术文档、社区反馈和第三方评测综合得出:

厂商典型CUDA代码修改比例简单模型迁移中复杂度模型迁移大模型训练迁移关键障碍
沐曦<5%0.5人天1人天 [48979]3-5人天NVML依赖、极少算子不支持
摩尔线程<10%0.5-1人天2-5人天5-10人天MUSA算子覆盖度不完全,性能调优
海光DCU10-15%1-2人天15人天 [48847]20-40人天ROCm版本兼容,miopen精度差异
天数智芯15-20%1-2人天5-10人天15-30人天warp size=64,warp原语需重写
阿里平头哥<5%(宣称)不确定不确定不确定公开资料有限,需进一步核验
壁仞科技30-40%3-5人天15-25人天35%核心算法重构 [48918]高性能数学库欠缺,通信协议不兼容NCCL
登临科技20-30%2-3人天10-15人天不确定片内异构调度复杂,需针对性优化
燧原科技20-30%1-2人天5-10人天10-20人天自定义kernel需重写TopsCC,编译时间较长
昆仑芯25-35%2-3人天8-15人天20-30人天仅vLLM场景较成熟,训练场景适配弱
华为昇腾30-50%3-5人天15-30人天40-90人天达芬奇架构与CUDA线程模型本质差异 [49243]
寒武纪50-70%5-10人天20-40人天60-120人天BANG C与CUDA编程模型完全不同 [48944]
瀚博半导体40-60%不确定不确定不确定公开资料有限,软件栈成熟度较低
景嘉微N/AN/AN/AN/A无CUDA兼容路径,仅有OpenCL

关键数据解读

  • 沐曦的92.94%直接适配率 来自于对GitHub 4490个活跃CUDA项目的实测,仅约6%需要微调(主要是编译配置而非业务逻辑),这是目前公开数据中最亮眼的成绩 [48991]
  • 海光DCU的”15人天” 是社区实测数据,包括了从环境搭建到完整迁移的全流程 [48847]。DTK的HIP编程模型与CUDA高度相似,学习曲线相对平缓。
  • 壁仞的35%核心算法重构 反映了其自研架构与CUDA线程模型的显著差异,尤其是在矩阵运算和通信原语方面 [48918]
  • 华为昇腾和寒武纪的高迁移成本 源于其底层硬件架构(达芬奇/MLUarch)与CUDA的SIMT模型本质不同——这不是简单的API翻译问题,而是计算范式转换问题 [49243]

5.10.4. 算子覆盖度对比

算子覆盖度直接决定了”迁移后能不能跑”以及”跑起来后性能怎样”。以下汇总各厂商对主流算子库的覆盖情况:

厂商BLAS库DNN库FFT库通信库稀疏库PyTorch算子覆盖度大模型关键算子
摩尔线程muBLASmuDNNmuFFTMCCL~85%FlashAttention✅, GEMM✅
沐曦MXMACA-BLASMXMACA-DNNMetaXLink~90%FlashAttention✅, GEMM✅
海光DCUrocBLASMIOpenrocFFTRCCLrocSPARSE~80%(ROCm生态)FlashAttention✅, GEMM✅
天数智芯CoreX-BLASCoreX-DNNCoreX-FFTCoreX-CCL~75%FlashAttention⚠️, GEMM✅
壁仞科技BIREN-BLASBIREN-DNNBIREN-CCL~65%FlashAttention⚠️, GEMM⚠️
登临科技GPU+ BLASGPU+ DNN~70%FlashAttention⚠️
燧原科技TopsBLASTopsDNNECCL~75%FlashAttention⚠️, GEMM✅
昆仑芯XDNN-BLASXDNN~70%FlashAttention⚠️
华为昇腾Ascend BLASAscend DNNHCCL~80%FlashAttention✅, GEMM✅
寒武纪CNBLASCNDNNCNCCL~70%FlashAttention⚠️, GEMM⚠️
NVIDIA(参考)cuBLAScuDNNcuFFTNCCLcuSPARSE100%FlashAttention✅, GEMM✅

架构师点评:算子覆盖度的”最后一公里”是最难的。厂商宣称覆盖80-90%的常用算子并不难,但剩下的10-20%往往是特定模型或特定场景下的关键算子——这些”长尾算子”的缺失可能导致模型无法运行或精度损失。此外,“覆盖”不等于”优化到位”:同一个FlashAttention算子,在NVIDIA H100上经过3代迭代优化,在国产GPU上可能只是功能可用但性能差距显著。

5.10.5. NVIDIA CUDA EULA限制对国产厂商的影响

2024年3月,NVIDIA在CUDA 11.6+版本的EULA中新增条款:禁止对使用CUDA SDK生成的输出进行逆向工程、反编译或反汇编,以将此类输出工件转换为目标非NVIDIA平台[49038]。这对国产GPU厂商的CUDA兼容策略产生了直接冲击。

受影响的技术路线是否被EULA禁止代表厂商影响程度
二进制转译层(ZLUDA式)被禁止无国产厂商采用此路线直接封死该路线
源码级重新编译(MUSIFY/HIPify式)合规摩尔线程、海光、沐曦不受影响
自研API兼容(接口模仿但独立实现)合规壁仞、天数智芯、登临不受影响
完全自研(无CUDA兼容)完全合规华为昇腾、寒武纪、燧原不受影响

摩尔线程在事件发生后第一时间声明:MUSA/MUSIFY不涉及NVIDIA EULA相关条款,开发者可以放心使用[48867]。关键区别在于:MUSIFY是 源码到源码的转换工具,而非运行时二进制转译——它转换的是开发者自己的CUDA代码,而非NVIDIA的CUDA SDK产物。

法律风险提示:虽然目前源码级兼容路线在EULA文本下似乎是合规的,但NVIDIA未来可能进一步收紧条款或通过技术手段(如加密、硬件锁定)增加兼容难度。这是所有走CUDA兼容路线的国产厂商面临的长期不确定性 [49044]

5.10.6. 综合迁移难度排名

排名厂商综合迁移难度核心优势核心短板
1沐曦★☆☆☆☆(最低)92.94%直接适配,cu-bridge编译桥接,1人天迁移生态未经大规模第三方验证
2摩尔线程★☆☆☆☆(很低)MUSIFY自动转换90%+,MUSA Toolkit完整算子覆盖度约85%,性能调优需额外工作
3海光DCU★★☆☆☆(较低)ROCm生态成熟,HIP编程模型与CUDA高度相似ROCm版本依赖复杂,需额外环境配置
4阿里平头哥★★☆☆☆(较低)宣称>99% CUDA兼容,真武810E自研公开资料有限,需核验;仅阿里云生态
5天数智芯★★★☆☆(中等)类CUDA API,libcuda.so替换方案warp size=64差异,需官方适配版PyTorch
6登临科技★★★☆☆(中等)硬件直接兼容CUDA加速,GPU+架构片内异构调优复杂,生态较窄
7燧原科技★★★☆☆(中等)框架层一键迁移,PyTorch体验好自研GCU架构不兼容CUDA,自定义kernel需重写
8昆仑芯★★★☆☆(中等)vLLM生态优秀,百度飞桨深度适配仅推理场景成熟,训练场景迁移难度大
9壁仞科技★★★★☆(较高)算力高,BIRENSUPA平台完整35%核心算法需重构,数学库效率低
10华为昇腾★★★★☆(较高)CANNNext改善体验,DeepSeek V4全栈迁移达芬奇架构与CUDA本质差异,迁移是系统工程
11寒武纪★★★★★(最高)NeuWare日趋成熟,Triton支持BANG C编程模型完全不同,全量代码重写
12瀚博半导体★★★★★(最高)VUCA统一计算架构软件栈不成熟,社区生态薄弱
13景嘉微★★★★★(最高)仅OpenCL,无CUDA迁移路径

5.10.7. 关键结论与趋势判断

  1. “零成本迁移”是营销话术,不是技术现实。即使是沐曦(92.94%直接适配率)和摩尔线程(90%+自动转换率),也需要真实的工程投入进行性能调优、精度验证和长尾算子适配。只有最简单的PyTorch模型才能做到”改一行代码就跑”。

  2. L2(源码级兼容)路线是当前最优解。沐曦、摩尔线程、海光DCU三家代表了国产GPU在CUDA迁移方面的一线水平,它们通过”源码自动转换+类CUDA API”的策略,将迁移成本控制在可接受范围内(1-15人天),是当前国产替代最现实的路径。

  3. 华为昇腾的CANNNext和CUDA兼容转向值得关注。昇腾950PR配合CANNNext引入了CUDA语法兼容层,虽然仍是”翻译CUDA”而非”原生兼容”[49286],但标志着华为从”完全自研独立生态”向”兼容并蓄”的战略转变,这会显著降低其迁移门槛。

  4. NVIDIA EULA是悬在”兼容路线”头上的达摩克利斯之剑。虽然当前源码级转换是合规的,但NVIDIA可能在法律和技术层面持续收紧。这是所有走CUDA兼容路线的国产厂商面临的系统性风险。

  5. 迁移成本不是唯一考量。迁移后的性能(算力利用率MFU)、稳定性(72小时长稳不掉卡)、精度对齐(loss一致性)和集群扩展能力(多卡线性加速比),往往比代码迁移本身更具挑战性。这些在后续章节中会进一步展开。

待进一步核验的信息

  • 阿里平头哥真武810E的”CUDA兼容度>99%“和”零成本迁移”声明缺乏第三方独立验证,公开技术资料有限 [49302]
  • 壁仞科技”35%核心算法重构”的数据来自第三方技术评测,壁仞官方未正式回应 [48918]
  • 各厂商的”算子覆盖度”数据来自社区和公开文档的交叉比对,并非厂商官方公布的系统性指标,实际覆盖度因模型而异。
  • 迁移人天为基于公开案例的估算,实际工程中受模型复杂度、团队经验、厂商技术支持力度等多因素影响。

5.11. 商业化和营收对比

对比已公开营收、客户数量、出货量、商业化阶段

核心洞察:商业化是检验国产 GPU/AI 加速器厂商的终极标尺。中国国产 GPU 赛道已从”PPT 造芯”进入”营收兑现”阶段,但 营收规模与市值之间存在巨大剪刀差——头部上市公司寒武纪 2024 年营收 11.74 亿元、市值一度超 3000 亿元,摩尔线程 2024 年营收 4.38 亿元、上市首日对应市值超 4000 亿元。与之相对,华为昇腾以 2024 年超 64 万片出货量、2025 年预计超 100 亿美元销售额遥遥领先,是唯一真正在大规模商业场景中与 NVIDIA 正面竞争的国产厂商。海光信息以 91.62 亿元营收和 19.31 亿元净利润成为 唯一实现规模化盈利的国产 GPU/AI 加速器上市公司。本章从营收规模、出货量、客户结构、毛利率、盈利能力和商业化阶段六个维度,对国产厂商进行系统对比与分级。

5.11.1. 营收规模总览:百亿级 vs 十亿级 vs 千万级

厂商2022 营收2023 营收2024 营收2025 营收(已披露/预测)数据来源商业化阶段
华为昇腾未单独披露鲲鹏+昇腾生态产值 300-400 亿算力卡营收目标 200 亿~$102.68 亿销售额(Bernstein)[49337]✅ 大规模放量
海光信息51.25 亿60.12 亿91.62 亿155-228 亿(券商预测)[49319]✅ 规模盈利
百度昆仑芯~2 亿(估)未公开~20 亿~35 亿+(预计)[49532]✅ 批量出货
寒武纪7.29 亿7.09 亿11.74 亿2025Q1 营收暴增 42 倍[49373]✅ 批量出货
阿里平头哥未单独披露未单独披露未单独披露累计出货 56 万片[49650]✅ 大规模部署
沐曦42.64 万0.53 亿7.43 亿15-19.8 亿(预计)[49522]✅ 批量出货
燧原科技0.90 亿3.01 亿7.22 亿2025 前三季度 5.4 亿[49449]✅ 批量出货
天数智芯1.89 亿2.89 亿5.40 亿2025H1 3.24 亿[49452]✅ 批量出货
摩尔线程0.46 亿1.24 亿4.38 亿2025 全年 15.05 亿[49363]✅ 批量出货
景嘉微11.54 亿7.13 亿4.66 亿6.5-8.5 亿(预计)[49396]✅ 批量出货
壁仞科技49.9 万0.62 亿3.37 亿~11.51 亿[49412]⚠️ 早期商业化
芯瞳半导体未公开未公开0.51 亿0.27 亿(2025)[49670]⚠️ 早期商业化
登临科技未公开未公开未公开未公开⚠️ 早期商业化
瀚博半导体未公开未公开未公开未公开⚠️ 早期商业化
芯动科技未公开未公开未公开未公开⚠️ 早期商业化
砺算科技000(2025 前 7 月)[49550]❌ 尚未产生营收
象帝先未公开未公开未公开未公开❌ 商业化停滞

说明:华为昇腾营收未在华为年报中单独列示,上述数据来自第三方机构估算和专家纪要。华为 2024 年报中鲲鹏+昇腾开发者累计 665 万、生态伙伴 8500+ 家 [49648]。阿里平头哥营收包含在阿里巴巴集团财报中,未单独披露。瀚博半导体、登临科技、芯动科技三家公司为非上市企业,营收数据未公开披露。

5.11.2. 出货量对比:2024 年市场格局

根据 IDC 2024 年中国加速计算芯片市场数据,各厂商出货量排名如下 [49592]

排名厂商2024 年出货量(万片)市场份额2025 年上半年出货量备注
1NVIDIA~190~70%约 130 万基准对比
2华为昇腾~64~23%约 40 万+国产第一
3百度昆仑芯~6.9~2.5%未公开国产第二
4天数智芯~3.8~1.4%1.57 万国产第三
5寒武纪~2.6~1.0%未公开国产第四
6沐曦~2.4~0.9%未公开国产第五
7燧原科技~1.3~0.5%未公开国产第六

另外,阿里平头哥真武 PPU 截至 2026 年 5 月累计出货 56 万片 [49662],但 2024 年出货量未纳入 IDC 统计口径(可能因产品发布时间较晚或统计口径不同)。

2025 年格局发生显著变化:IDC 数据显示 2025 年上半年中国 AI 芯片出货量突破 190 万张,同比增 111% [49595]。全年来看,华为昇腾出货量约 81.2 万片,国产芯片整体份额升至约 41% [49601]。2025 全年昆仑芯和寒武纪出货量均达 11.6 万块,并列国产第三 [49597]

5.11.3. 客户结构对比:谁在买?

客户结构是衡量商业化质量的关键指标——客户集中度越低、外部客户占比越高,说明产品越是被市场而非政策驱动认可。

厂商前五大客户营收占比第一大客户占比主要客户类型关键特征
华为昇腾多元化分散运营商(15-17 万片)、互联网厂商、政府、智算中心全行业覆盖,客户结构最健康
海光信息未集中披露分散运营商、金融、互联网、教育CPU+DCU 双轮驱动,多行业渗透
百度昆仑芯百度内部采购 ~60%百度百度智能云、外部互联网厂商、运营商、手机厂商2024 年外部客户占比约 40%
阿里平头哥阿里云内部 ~60%阿里云阿里云、国家电网、中科院、小鹏汽车、新浪微博等 400+ 客户2025 年外部客户快速增长
寒武纪94.63%79.15%(9.30 亿)从政府转向互联网公司和运营商单一客户依赖度极高
摩尔线程98.29%(2025H1)客户 R 贡献 3.97 亿(2025H1)互联网企业、芯片设计企业、AI 企业、算力服务商集群业务为主,客户高度集中
壁仞科技90.3%(2024)未公开ICT、数据中心、AI 解决方案公司9 家中国财富 500 强客户
沐曦71.09%(2024)未公开服务器厂商、集成商、智算中心建设方2023 年曾达 91.58%
燧原科技96.89%(2025 前三季度)腾讯 83.79%腾讯(直接+AVAP 模式)、运营商、智算中心腾讯既是第一大股东又是第一大客户
天数智芯38.6%(2025H1)未公开互联网、金融、医疗、教育、交通等 340+ 客户客户集中度最低,市场化程度最高
景嘉微集中度高(军工)航空工业少数客户图形显控(军工)、信创桌面芯片业务占比 ~29%
登临科技未公开未公开智慧城市、交通、金融、能源、电力多行业落地
砺算科技N/AN/A尚未产生营收产品仍在送样测试阶段

关键洞察

  • 天数智芯 是客户分散度最高的国产 GPU 厂商,前五大客户占比从 2022 年的 94.2% 降至 2025 年上半年的 38.6%,累计服务超过 340 家客户,部署超 1000 个项目 [49457]。这在国内极为罕见,说明其产品已被市场化需求广泛驱动。
  • 燧原科技 依赖腾讯的程度从 2022 年的 8.53% 飙升至 2025 年前三季度的 83.79% [49752],实质上已成为腾讯 AI 算力体系的外部供应商 [49440]。这种”股东即客户”模式虽能保证短期营收,但长期独立商业化能力存疑。
  • 寒武纪 第一客户占比 79.15%,虽声称客户已从政府转向互联网和运营商,但客户身份至今未披露,存在较大信息不对称风险 [49374]

5.11.4. 毛利率对比:谁在”卖价值” vs “卖成本”

毛利率是衡量芯片产品竞争力的核心指标。高毛利率意味着产品具有技术溢价能力,低毛利率则可能反映”堆料卖铁”或依赖低价竞标。

厂商2022 毛利率2023 毛利率2024 毛利率2025 毛利率评价
NVIDIA(基准)~60%~70%~75%~75%黄金标杆
海光信息52.42%59.67%63.72%国产最高,逼近 NVIDIA
寒武纪65.76%69.30%56.71%55.23%从高位下滑,产品结构变化
摩尔线程27.84%72.32%69.17%波动大,2024 年改善明显
沐曦64.27%53.48%56.51%中等水平
天数智芯59.26%49.48%49.07%50.09%(2025H1)偏低,推理产品拉低
燧原科技未公开22.60%30.59%31.78%国产最低,集群收入占比高
壁仞科技100%未公开未公开31.9%(2025H1)从 100% 断崖下跌
景嘉微芯片业务 ~47%芯片业务 ~43%未公开未公开图形芯片毛利率偏低

毛利率数据来源:海光 [49327];寒武纪 [49448];摩尔线程 [49448];沐曦 [49448];天数智芯 [49452];燧原 [49448];壁仞 [49430]

关键洞察

  • 海光信息 以 63.72% 的综合毛利率在国产厂商中排名第一,且呈逐年上升趋势,主要得益于高端处理器(7000 系列)占比提升。其 DCU 产品定价与 NVIDIA 对标产品接近,毛利率具有较强可持续性。
  • 燧原科技 毛利率仅 31.78%,远低于同行,原因是其营收中智算系统及集群业务占比高达 56.24%(2024 年),该业务包含大量低毛利硬件集成和外购设备 [49759]
  • 壁仞科技 毛利率从 2022 年的 100%(几乎无营收基数)骤降至 2025 年上半年的 31.9%,反映出商业化初期从”卖芯片”到”卖系统解决方案”的业务结构变化,以及议价能力的弱化 [49430]

5.11.5. 盈利能力对比:谁在赚钱?

厂商2022 净利润2023 净利润2024 净利润2025 净利润累计亏损盈利预期
海光信息+8.04 亿+12.63 亿+19.31 亿预计 +36.6 亿持续盈利
华为昇腾未单独披露未单独披露未单独披露未单独披露不确定
百度昆仑芯未公开未公开约 -2 亿预计盈亏平衡~数亿2025 年盈亏平衡
寒武纪-12.57 亿-8.48 亿-4.43 亿2025Q1 扭亏~-50 亿2025 年有望全年盈利
摩尔线程-18.94 亿-17.03 亿-16.18 亿2025H1 -2.71 亿~-55 亿最早 2027 年盈利
沐曦-7.77 亿-8.71 亿-14.09 亿2025Q1 -2.33 亿~-33 亿最早 2026 年
燧原科技-11.16 亿-16.65 亿-15.10 亿2025 前三季 -8.88 亿~-52 亿未明确
天数智芯-5.65 亿未公开未公开未公开~-28 亿未明确
壁仞科技-14.74 亿-17.44 亿-15.38 亿2025H1 大幅亏损~-63 亿未明确
景嘉微+2.89 亿+0.60 亿-1.65 亿2025Q1 -0.55 亿2025 年预计续亏
芯瞳半导体未公开未公开-1.07 亿-0.49 亿>-1.5 亿不确定
砺算科技未公开-1.5 亿-2.1 亿-1.5 亿(前 7 月)~-5.1 亿不确定

数据来源:海光 [49319];寒武纪 [49373];摩尔线程 [49363];沐曦 [49521];燧原 [49449];壁仞 [49418];天数智芯 [49454];景嘉微 [49396];芯瞳 [49670];砺算 [49550]

唯一盈利的国产 GPU/AI 加速器上市公司是海光信息。华为昇腾业务可能也是盈利的(尽管未单独披露,但华为整体计算产业”抓住 AI 机会取得较大增长”[49644]),综合其出货量和 ASP 判断,昇腾大概率是国产 GPU 中盈利规模最大的业务线。

寒武纪 2024 年 Q4 实现上市以来首次单季度盈利 [49387],2025 年 Q1 继续盈利 [49372],2025 年上半年归母净利润达 10.38 亿元,首次实现半年度盈利 [49380],正在从”烧钱”模式进入”造血”阶段。

5.11.6. 人均营收与研发效率对比

芯片公司的核心竞争力不仅体现在总营收,更体现在人均产出效率上。以下是基于公开数据的人均营收估算:

厂商2024 年营收员工规模(估)人均营收(估)研发费用率
海光信息91.62 亿~2,400 人~380 万元31.76%
华为昇腾~200 亿+(估)数千人未单独披露
寒武纪11.74 亿~1,500 人~78 万元91.3%
摩尔线程4.38 亿~1,200 人(估)~37 万元极高
天数智芯5.40 亿~800 人(估)~68 万元143.2%
沐曦7.43 亿~1,000 人(估)~74 万元极高
燧原科技7.22 亿~1,200 人(估)~60 万元181.7%

海光信息的人均营收遥遥领先,这与其”CPU+DCU”双产品线、多行业客户覆盖和成熟的销售体系密切相关。相比之下,初创 GPU 公司的人均营收普遍偏低,反映出商业化效率仍有较大提升空间。

寒武纪 2024 年研发投入占营收的 91.3% [49379]、天数智芯 2024 年研发费用占营收 143.2% [49464]、燧原科技 2022-2024 年三年研发费用合计 35.29 亿元,占同期营收比例超过 316% [49436]——这些数据鲜明地揭示了国产 GPU 行业的”烧钱”本质。

5.11.7. 在手订单与未来营收可见度

厂商在手订单合同负债/预收款增长确定性
华为昇腾供不应求,持续排队极高⭐⭐⭐⭐⭐
海光信息2024 年末存货 54.25 亿(+405%),合同负债大幅增长极高⭐⭐⭐⭐⭐
摩尔线程2025 年上半年在手订单 ~20 亿⭐⭐⭐⭐
壁仞科技24 份销售合同 + 5 份框架协议,总价值约 12.4 亿⭐⭐⭐
沐曦截至 2025 年 9 月,在手订单 14.3 亿⭐⭐⭐⭐
燧原科技燧原 S60 出货及订单超 10 万片⭐⭐⭐
寒武纪存货大幅增长(备货应对爆单)中高⭐⭐⭐⭐

数据来源:海光 [49327];摩尔线程 [49355];壁仞 [49413];沐曦 [49520];燧原 [49763]

海光信息 2024 年末存货账面价值高达 54.25 亿元,较三季度末增加 15.29 亿元,同比增幅超 400%,其中以原材料为主 [49327]。这一”激进备货”策略既反映了公司对 2025 年需求的高度信心,也暗含美国制裁进一步升级背景下的供应链焦虑——提前囤积关键原材料和晶圆产能。

5.11.8. 商业化阶段分级

根据营收规模、客户验证程度和产品成熟度,将国产厂商分为以下梯队:

梯队厂商特征2024 年营收范围
第一梯队华为昇腾、海光信息大规模放量、多行业验证、正向盈利或接近盈利90 亿 ~ 200 亿+
第二梯队百度昆仑芯、阿里平头哥背靠大厂生态、出货量领先、向外部市场拓展20 亿 ~ 40 亿(估)
第三梯队寒武纪、沐曦、燧原科技、天数智芯、摩尔线程批量出货、营收快速增长、尚未盈利4 亿 ~ 12 亿
第四梯队壁仞科技、景嘉微、登临科技、瀚博半导体早期商业化、营收规模小、客户验证有限1 亿 ~ 4 亿
第五梯队芯动科技、芯瞳半导体少量出货、营收不稳定<1 亿
第六梯队砺算科技、象帝先尚未产生营收或商业化停滞0

5.11.9. 商业化核心结论

1. 华为昇腾是唯一具有”量价齐升”能力的国产玩家。 2024 年出货约 64 万片,2025 年预计超 70 万片(含 910B + 910C),ASP 超过 10 万元/片 [49336],2024 年算力卡营收目标 200 亿元 [49337]。2025 年 Bernstein 估算其销售额达 102.68 亿美元,已与英伟达在中国市场持平 [49689]

2. 海光信息是唯一实现规模化盈利的国产 GPU/AI 加速器上市公司。 2024 年营收 91.62 亿元、净利润 19.31 亿元、毛利率 63.72%,三项指标均为国产厂商之最。其 DCU 业务虽然营收占比尚未超过 CPU,但增速显著,深算三号有望成为 2025-2026 年的核心增长引擎。

3. 营收与市值严重倒挂是国产 GPU 的普遍现象。 寒武纪 2024 年营收 11.74 亿元,市值一度超 3000 亿元,市销率超过 250 倍;摩尔线程 2024 年营收 4.38 亿元,IPO 首日市值超 4000 亿元。这反映了资本市场对国产替代的”情感溢价”而非基本面支撑 [49360]

4. 客户集中度是最大的商业化风险。 寒武纪第一客户占比 79.15%、燧原科技腾讯占比 83.79%、摩尔线程前五大客户占比 98.29%——这些数据意味着一旦单一客户减少采购,营收将出现断崖式下跌。相比之下,天数智芯前五大客户占比已降至 38.6%,商业化质量最高。

5. 非上市公司的营收数据普遍不透明。 瀚博半导体、登临科技、芯动科技等未上市企业未公开营收数据,只能通过融资新闻和零星报道侧面了解其商业化进展。阿里平头哥和百度昆仑芯的营收包含在集团财报中,未单独列示,需依赖第三方机构估算。

6. “零营收”公司依然存在。 砺算科技 2023-2025 年营收均为零,累计亏损超 5 亿元,但估值仍达 35 亿元 [49552]。象帝先 2024 年因对赌失败解散 400 人团队,后虽获得新一轮融资”起死回生”,但商业化前景仍高度不确定 [49492]。这提醒投资者:国产 GPU 赛道并非所有参与者都能走到终点。

5.12. 融资、上市和资本状态对比

对比融资轮次、估值、上市状态、资金储备

资本市场是国产GPU/AI加速器行业的“晴雨表”和“加速器”。2025年底至2026年上半年,国产GPU/AI芯片企业掀起了一波前所未有的上市潮——摩尔线程、沐曦相继登陆科创板,壁仞科技、天数智芯挂牌港交所,燧原科技科创板过会在即,昆仑芯、平头哥上市传闻四起。据统计,仅2025年全年,国内GPU相关赛道企业总募资规模已超300亿元 [50134]。这一轮资本盛宴既是国产替代逻辑的集中兑现,也折射出市场对AI算力稀缺资产的狂热定价。

架构师注:芯片是典型的“烧钱”行业——一次先进制程流片费用动辄数千万美元,而软件生态建设更是需要持续十年以上的投入。资本市场的窗口期不会永远敞开。当前这批企业的融资能力,在很大程度上决定了它们能否活到与NVIDIA正面竞争的那一天。因此,融资状态不仅是“钱的问题”,更是“生存权的问题”。

5.12.1. 融资、上市和资本状态总览表

公司融资轮次累计融资额(估算)最新估值(Pre-IPO/最新轮)上市状态上市交易所上市/预计时间IPO募资额当前市值(约)2025年营收(公开)盈利状态
华为昇腾内部孵化不适用(华为体系)不单独估值未上市(华为旗下)暂无独立上市计划华为2025总营收8809亿华为整体盈利
海光信息上市前多轮未公开(IPO前)市值约6886亿已上市科创板(688041)2022.08~108亿约6886亿 [50112]143.76亿✅ 盈利(净利25.42亿)
寒武纪上市前多轮+定增上市前约50亿+市值约7168亿已上市科创板(688256)2020.07~25亿(首发)约7168亿 [50112]64.97亿✅ 盈利(净利20.59亿)
摩尔线程7轮超100亿298亿(Pre-IPO)已上市科创板(688795)2025.1280亿(净额75.76亿)约3364亿 [50112]约7.85亿(前三季)❌ 亏损
沐曦8轮数十亿210.71亿已上市科创板(688802)2025.1241.97亿约3033亿 [50112]快速增长❌ 亏损(预计2026盈亏平衡)
壁仞科技10轮超50亿(一说90+亿)209亿(2025.8)已上市港交所(06082)2026.0142.1-48.5亿港元最高超1000亿港元销售合同12.41亿(截至2025底)❌ 亏损
天数智芯7轮(D+轮)超34.5亿(D+D+轮)120亿(D+轮投前)已上市港交所(09903)2026.01约35.09亿港元约399亿港元 [49948]未公开❌ 亏损(收窄中)
燧原科技11轮近70亿202-210亿(2024.12)IPO过会科创板(申报)2026.06过会拟募60亿机构预计1200-1800亿2025前三季5.4亿❌ 亏损(预计2026盈亏平衡)
景嘉微上市+定增定增38.33亿(2024)市值约337亿已上市创业板(300474)2016.0338.33亿(2024定增)约337亿 [50174]约7.2亿(2025)❌ 亏损(净亏1.65亿)
百度昆仑芯D轮未公开(含21亿元D轮)210亿(2025.07)IPO推进中港交所(递表) / 科创板(辅导)2026年(A+H可能)传言10-20亿美元高盛估320-1300亿约13亿(2025)未公开(推测亏损)
阿里平头哥阿里全资内部孵化摩根大通估250-620亿美元传闻独立上市未定2026H2-2027初(预计)未定未定未公开未公开
瀚博半导体6轮超25亿100亿+(2024胡润)IPO辅导中科创板(辅导)2025.07启动辅导未定未定未公开未公开(推测亏损)
登临科技多轮(含战略)未公开未公开未启动IPO暂无明确计划未公开未公开
象帝先5轮+新融资约25亿+数亿峰值150亿→80亿→回升拟IPO未定2026年计划股改未公开❌ 亏损(曾濒临解散)
砺算科技天使+Pre-A+增资约6亿+35亿(2025.08投前)未启动IPO暂无明确计划东芯股份持股35.87%0(2024); 0(2025前7月)❌ 巨额亏损
芯动科技未公开未公开未公开未上市暂无明确计划未公开未公开
芯瞳半导体A轮超亿元(A轮)+5.5亿(大胜达)20亿(2026.03投前)未启动IPO暂无明确计划大胜达持股22.98%5078.5万(2025)❌ 亏损(净资产为负)
格兰菲多轮未公开(兆芯体系)未公开IPO辅导中科创板(辅导)2025.02启动辅导未公开(兆芯体内)❌ 亏损(年亏2-6亿)

数据截止日期:2026年6月18日。市值数据为近似值,随市场波动。标注”未公开”的信息为公开资料中未找到可靠数据,需进一步核验。

5.12.2. 资本状态的梯队分层

5.12.3. 第一梯队:已上市+盈利(财务安全垫最厚)

公司核心优势风险提示
海光信息唯一实现百亿营收+持续盈利的国产GPU/AI芯片公司。2025年营收143.76亿,净利25.42亿 [50101]。2026Q1营收40.34亿,同比+68.06% [49793]。在手订单充裕,新签订单59.60亿 [49788]。现金储备充足。市值已近7000亿,PS约48倍,估值不便宜。与AMD x86授权协议的长远可持续性存疑。
寒武纪2025年首次实现全年盈利,营收64.97亿,净利20.59亿 [49808]。市值约7168亿,PS约110倍——市场给予极高成长溢价。2026Q1营收28.85亿,环比+53% [49825]市值中隐含了极高的增长预期。2026年营收指引200亿 vs 市场300-500亿预期的落差曾引发股价波动 [49813]。客户集中度高仍是隐忧。

投资者视角:海光信息和寒武纪是A股国产AI芯片的”双龙头”,合计市值超1.4万亿。但两家公司的估值逻辑截然不同:海光是”价值+成长”(有真实利润支撑),寒武纪是”纯成长”(市场赌的是2027年以后的爆发)。在海光/寒武纪之间,海光更像”确定性的复利”,寒武纪更像”高赔率的期权”。

5.12.4. 第二梯队:已上市+亏损(资本弹药充足,但需证明商业化能力)

公司IPO募资可支配资金盈亏平衡预期核心关注点
摩尔线程80亿(净额75.76亿)充裕预计2027年募资额创2025年科创板纪录。上市首日涨468%,市值超3000亿 [49835]。但前三季度营收仅7.85亿,PS超300倍 [49829]
沐曦41.97亿72.90亿(截至2025.03)预计2026年可支配资金72.90亿,足以覆盖未来两年营运资金需求55.69亿 [50178]。上市首日涨569%,市值超2800亿 [49876]
壁仞科技42.1-48.5亿港元现金类资产结余充裕未明确港股GPU第一股。首日涨75.82%,市值一度超1000亿港元 [50128]。募资85%用于研发 [49865]
天数智芯约35.09亿港元充裕未明确港股上市。毛利率超50%,资产负债率降至39.8% [49951]。2025年推理收入增238.2%。

架构师注:这四家(被市场合称为”GPU四小龙”)合计融资约200亿元人民币,加上IPO募资,账面现金至少在300亿以上。从”烧钱”角度,这足够支撑3-5年的研发投入。但市场给予的估值(合计市值超7000亿)已经price in了相当乐观的预期——它们需要在未来2-3年内证明自己能实现数十亿级别的营收和正向经营现金流,否则估值回调将是大概率事件。

5.12.5. 第三梯队:IPO进程中(确定性高,但估值尚未被二级市场验证)

公司当前状态预计募资最新估值关键不确定性
燧原科技科创板IPO 2026.06.15过会 [49899]拟募60亿一级市场202-210亿腾讯贡献超80%营收,客户集中度极高 [49893]。对赌协议风险 [49896]
百度昆仑芯港股递表+科创板辅导启动 [49933]传言10-20亿美元210亿(2025.07)高盛估值区间极宽(320-1300亿) [49938],反映高度不确定性。依赖百度生态。
瀚博半导体科创板辅导中(2025.07启动)未定100亿+(2024胡润)Pre-IPO轮已完成,但募投项目方案尚未最终确定 [50127]
格兰菲科创板辅导中(2025.02启动)未定未公开年亏损2-6亿,持续亏损 [50121]。兆芯生态依赖性。

5.12.6. 第四梯队:传闻/筹备IPO(存在较大不确定性)

公司当前状态传闻估值分析
阿里平头哥2026.01传出独立上市消息摩根大通估250-620亿美元 [50071]阿里全资子公司,需要先完成内部重组和员工持股改造。摩根大通对其2026年内完成IPO持保留态度 [50068]。若上市,可能是国产芯片史上最大IPO。
象帝先2026年计划完成股改,加速IPO峰值150亿→低谷80亿→回升经历了2024年濒临解散的危机后,2025-2026年连续获得数亿元融资,资本认可度回升 [49974]。但估值修复之路仍漫长。

5.12.7. 第五梯队:未上市/未启动IPO(资本化路径不清晰)

公司状态核心问题
登临科技持续获得战略融资(高通创投等)估值未公开,IPO路径不明确。专注AI推理,市场规模天花板可能制约估值。
砺算科技2024年营收0,2025年前7月营收0零营收、净资产为负(-8633万),依靠东芯股份持续”输血”[50020]。投前估值35亿的定价逻辑存疑。
芯瞳半导体2025年净资产-1966万,大胜达5.5亿入股资不抵债,但投前估值20亿 [50093]。大胜达的跨界投资被市场质疑 [50082]
芯动科技未上市,以IP授权和芯片定制为主业商业模式不同于纯GPU芯片公司,IPO动力和路径不明确。

5.12.8. 关键资本趋势与洞察

5.12.9. 上市潮的时间窗口:35天4家GPU公司上市

2025年12月5日至2026年1月8日,短短35天内,摩尔线程(科创板)、沐曦(科创板)、壁仞科技(港交所)、天数智芯(港交所)四家国产GPU公司相继上市,累计市值一度超过6800亿元 [50189]。这不仅是国产GPU行业的”成人礼”,也标志着资本市场对国产算力赛道的定价进入了全新阶段。

5.12.10. 估值逻辑:PS vs 梦想

国产GPU公司的估值体系极为特殊,与传统半导体估值逻辑存在显著偏离:

指标摩尔线程寒武纪海光信息NVIDIA(参考)
动态PS(市销率)~300倍~110倍~48倍~25-30倍
盈利状态亏损刚盈利稳定盈利高盈利
估值逻辑国产替代溢价+全功能GPU稀缺性AI训练芯片龙头溢价业绩+成长双轮驱动全球AI算力霸主

摩尔线程以300倍PS上市,意味着市场在为其”全功能GPU唯一性”支付极高的稀缺溢价 [49829]。但这种估值能否持续,取决于其未来2-3年的营收增速能否兑现预期。

5.12.11. 互联网巨头”分拆上市”的资本逻辑

百度昆仑芯和阿里平头哥的上市计划,揭示了一个深层趋势:互联网大厂的芯片业务正在从”成本中心”向”利润中心”转型。昆仑芯独立后估值从130亿升至210亿,平头哥若独立上市估值可能高达250-620亿美元 [50070]。这种”分拆红利”正在激励更多大厂将芯片业务推向资本市场。

但从另一个角度看,这也意味着大厂芯片业务将面临更严格的独立盈利能力考验——资本市场不会像母公司那样容忍长期亏损。

5.12.12. 融资的”生死线”:象帝先和砺算科技的警示

2024年,象帝先因B轮融资对赌协议未达成5亿元营收目标,遭股东起诉、资金账户被冻结,一度濒临解散 [49976]。砺算科技2024年营收为0,经历7-8个月经营极度困难时期,依靠东芯股份的2亿元”救命钱”才得以延续 [50006]

这两个案例揭示了国产GPU赛道的残酷现实:芯片创业的容错率极低。一次流片失败、一轮融资延迟,都可能直接导致公司死亡。 当前的一级市场融资环境虽然较2024年有所回暖,但投资人对”只有PPT没有芯片”的项目容忍度已大幅降低。

5.12.13. 华为昇腾的”非上市”特殊性

华为昇腾作为国产AI芯片出货量第一的厂商(2025年占国产GPU出货量近半)[49772],从未独立融资,也不在上市讨论之列。其背后是华为集团2025年8809亿营收、1900亿研发投入的雄厚财力支撑 [49771]。这种”不差钱”的模式,让昇腾在研发投入上拥有远超其他国产厂商的优势——仅2026年字节跳动一家的昇腾芯片采购订单传闻就超过400亿元 [50201]

架构师注:华为昇腾的”集团军模式”和创业公司的”特种兵模式”代表了两种完全不同的竞争路径。前者有无限弹药但受制于集团战略优先级,后者灵活但时刻面临资金链断裂的风险。在AI芯片这个”赢者通吃”的赛道,两种模式谁能笑到最后,将是未来3-5年最值得关注的变量之一。

5.12.14. 资金储备与”烧钱”能力对比

维度华为昇腾海光信息寒武纪摩尔线程沐曦壁仞科技天数智芯燧原科技景嘉微其他非上市
资金储备评级⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
年研发投入(估算)数百亿(集团)30-40亿20-30亿10-15亿8-12亿10-15亿5-8亿5-8亿3-5亿1-5亿
可维持年限(不融资)无限期10年+5年+5年+4年+3年+3年+2-3年3年+1-3年
融资能力极强(集团)强(上市公司)强(上市公司)强(上市+高市值)强(上市+高市值)中强(港股上市)中(港股上市)中(IPO中)中(定增)弱-中

资金储备评级说明:基于现金储备、融资能力和研发烧钱速度综合评估。⭐⭐⭐⭐⭐表示即使3年不融资也能维持正常研发运营;⭐⭐表示严重依赖外部融资,资金链断裂风险较高。

关键结论

  1. 华为昇腾和海光信息是唯二”不差钱”的玩家:前者背靠华为集团,后者已实现百亿营收和持续盈利。

  2. “GPU四小龙”上市后现金充裕,但估值压力巨大:合计手持现金超300亿,但市值合计超7000亿——市场期望它们在未来3年内实现至少数十亿级别营收,否则估值将面临剧烈调整。

  3. 未上市企业面临”融资窗口关闭”风险:随着头部企业已上市,一级市场对GPU赛道的投资热情可能边际递减。瀚博、格兰菲等尚在IPO辅导中的企业需要尽快完成上市,而砺算、芯瞳等尚未盈利且营收极低的企业,融资难度将显著加大。

  4. 象帝先的”起死回生”是例外而非规律:大多数陷入困境的GPU创业公司不会像象帝先那样幸运地获得”白衣骑士”。


本节数据截止至2026年6月18日。市值数据为近似值,随二级市场波动。部分非上市公司的融资和估值数据来自公开报道,可能存在信息滞后或不完整,已标注”未公开”或”估算”。

8. 未来趋势与淘汰赛

8.1. 第一梯队潜力厂商判断

预测哪些厂商有望在3-5年内实现技术闭环与规模化盈利

核心洞察:如果把国产GPU/AI加速器赛道比作一场马拉松,2025-2026年是一个关键分水岭——从”融资烧钱、证明概念”的上半场,正式进入”营收验证、盈利冲刺”的下半场。此前所有厂商都可以用”国产替代”和”技术突破”的叙事获得高估值,但往后3-5年,资本市场和产业客户将用 营收规模、毛利率、亏损收窄速度、客户集中度、产品迭代节奏 这五把尺子,冷酷地重新丈量每一家公司的真实价值。本节的判断标准是:谁能在3-5年内实现”芯片设计→量产→软件生态→客户验证→规模化营收→盈利”的完整闭环


8.1.1. 判断框架:技术闭环与盈利能力的”五维模型”

在进入具体厂商分析前,先建立一套可验证的判断体系。一家GPU/AI芯片公司能否进入第一梯队,取决于以下五个维度的交叉验证:

维度核心指标权重衡量标准
技术产品力芯片代际迭代速度、性能对标水平、制程先进性25%能否保持每12-18个月一代的迭代节奏
软件生态力框架覆盖度、算子库完整度、开发者数量、迁移工具成熟度20%能否让客户”30天内完成模型迁移”
商业化能力营收规模、增速、毛利率、客户多元化、在手订单25%年营收>20亿且非单一客户占比<50%
财务健康度亏损收窄趋势、现金储备、融资能力、研发投入效率15%经营性现金流能否在2年内转正
供应链韧性代工来源多样性、先进封装可获得性、良率爬坡速度15%能否在实体清单下稳定获取7nm及以下产能

8.1.2. 第一梯队候选厂商分层评估

8.1.2.1. 已确认第一梯队:技术闭环与盈利双达标

以下三家厂商在2025年已经实现了”规模化营收+盈利”或”准盈利”,是当前国产GPU/AI加速器赛道中 唯一跑通了商业闭环的企业

厂商2025年营收2025年净利润2026Q1营收2026Q1净利润核心判断
海光信息143.77亿25.45亿40.34亿6.87亿已盈利、持续高增
寒武纪64.97亿~20亿28.85亿10.13亿已盈利、弹性最大
华为昇腾未单独披露(估算300-400亿生态产值)N/A2026年预计120万张出货N/A生态规模已封王

海光信息:2025年以143.77亿元营收、25.45亿元净利润稳居国产算力芯片”盈利王”[61153]。2026年Q1营收同比增长68.06%至40.34亿元,净利6.87亿元,研发投入占营收30.03%[61320]。深算三号DCU已量产商用,深算四号研发顺利,“CPU+DCU”双轮驱动使其兼具x86生态兼容性和AI算力能力[61145]核心壁垒:国内唯一同时拥有高端CPU和DCU两条量产产品线的公司,x86兼容性大幅降低客户迁移成本,在金融、能源、运营商等信创核心领域已实现规模出货[61162]

寒武纪:从”亏损王”到”盈利黑马”的蜕变堪称2025年国产AI芯片行业最戏剧性的事件。2025年全年营收64.97亿元,同比增长453.21%,实现上市以来首次年度盈利[61086]。2026年Q1营收28.85亿元,同比增长159.56%,净利润10.13亿元,同比增长185.04%[61340]。思元590芯片在大模型训练场景的规模化落地是核心驱动力,据称已进入字节跳动、阿里、腾讯等互联网大厂[61090]核心壁垒:自研指令集+自研架构,思元590性能对标A100约80%,在国产训练芯片中仅次于华为昇腾[61089]

华为昇腾:虽未独立上市,但昇腾生态的规模效应已与其他国产厂商拉开数量级差距。2025年昇腾芯片出货约52万张,2026年预计翻近3倍至120万张[61064]。2026年初字节跳动400亿采购订单的传闻虽未获官方确认,但中国移动深圳光明项目1.55亿元中标、昇腾910C成为算力基础设施核心支撑等公开信息,已充分验证其商业化能力[61074]。2026年Q1发布的昇腾950PR处理器标志着下一代推理算力进入商用阶段[61069]。2025年报显示,昇腾已汇聚400万开发者、3000多家合作伙伴[61065]核心壁垒:全栈自研(芯片→CANN→MindSpore→集群→超节点),Atlas 950超节点规模远超NVIDIA同级产品,是唯一在万卡集群层面与NVIDIA正面竞争的国产方案[61295]


8.1.2.2. 准第一梯队:3年内极大概率跑通闭环

以下四家厂商虽尚未实现盈利,但 营收增速、产品迭代、客户拓展和亏损收窄趋势 均表现出明确的”向第一梯队跃迁”信号:

(1)阿里平头哥——“隐形冠军”浮出水面

指标数据来源
累计交付56万片(截至2026年5月)[61243]
年化营收超百亿规模[61246]
外部客户400+家,覆盖20+行业[61243]
外部客户占比60%以上[61249]
代际规划真武V900(2027Q3)、真武J900(2028Q3)[61243]

平头哥是2025-2026年国产AI芯片赛道最令人意外的”黑马”——它用”秘密研发→内部验证→批量出货→官宣亮相”的策略,在几乎无人知晓的情况下完成了56万片的惊人交付量[61245]。真武810E性能对标英伟达H20,已在阿里云实现万卡规模部署,并拿下小鹏汽车、比亚迪等外部大客户[61244]上第一梯队的核心逻辑:依托阿里云每年3800亿的AI基建投入,平头哥天然拥有”自产自销”的规模化验证场景,同时已证明外部商业化能力。阿里CEO吴泳铭明确表示”平头哥芯片产能扩大后可能通过销售AI服务器方式与服务商共建数据中心”[61251],这意味着平头哥正在从”内部供应商”转型为”公开市场玩家”。

(2)摩尔线程——“全功能GPU”路线的商业化验证者

指标2022年2023年2024年2025年2026Q1
营收0.46亿1.24亿4.38亿15.05亿7.38亿
净利润-18.4亿-16.73亿-14.92亿-9.5~-10.6亿+0.29亿(扭亏)
营收增速169%253%243%155%

2026年Q1是摩尔线程的”历史性时刻”——成立以来首次实现单季度归母净利润转正(2936万元),扣非亏损也大幅收窄60.1%[61378]。全年营收从2022年的0.46亿飙升至2025年的15.05亿,三年增长超32倍[61394]。公司预计2027年实现合并报表全面盈利[61130]上第一梯队的核心逻辑:摩尔线程是国内唯一真正走”全功能GPU”路线(AI+图形+渲染+视频编解码)且已实现规模量产的厂商,其MUSA架构和CUDA兼容策略(MUSA-Migration-Toolkit)使其在生态迁移上具有独特优势,夸娥(KUAE)万卡集群已获中国移动超20亿元合同[61134]。截至2025年底已获授权专利514项,研发投入13.05亿元,占营收86.68%[61117]

(3)沐曦股份——“训推一体”的量产急先锋

指标2022年2023年2024年2025年2026Q1
营收42.64万0.53亿7.43亿15~19.8亿5.62亿
净利润-7.77亿-8.71亿-14.09亿亏损收窄-0.99亿

沐曦在2024-2025年上演了营收增速奇迹——从年营收几十万元到2025年预计15-19.8亿元,三年复合增长率高达4074%[61366]。主力产品曦云C500在2024年量产,迅速成为营收核心(占比超90%),2025年出货量大幅增长[61196]。2026年Q1营收5.62亿元,同比增长75.37%,净亏损大幅收窄至0.99亿元[61368]。公司预计最早2026年实现盈亏平衡[61185]上第一梯队的核心逻辑:C500已证明量产和客户接受度,下一代C600将升级HBM3e并支持FP8训练,技术路线图清晰。在手订单超14亿元,为2026年营收提供高能见度[61184]。高盛预测2026年净利润3.2亿,中信证券预测1.2亿[61363]

(4)百度昆仑芯——“互联网派”芯片的规模效应

指标数据来源
2024年营收~20亿元[61309]
2025年营收(预测)~35亿元[61300]
2026年营收(高盛预测)65亿元[61300]
2026年营收(摩根大通预测)83亿元[61301]
2025年出货量约13万片[61302]
市场份额中国GPU市场第三(仅次于英伟达和华为)[61313]

昆仑芯的独特之处在于其”百度系”出身——它不需要像其他厂商那样从零开始找客户,百度自身就是最大的”内部客户”。2025年外部收入占比已超50%,意味着它正在从百度的”专属供应商”蜕变为独立的市场参与者[61312]。昆仑芯3代(M100)计划2026年上市,M300计划2027年[61307]上第一梯队的核心逻辑:百度AI云基础设施的持续扩张为昆仑芯提供确定性需求底盘,同时外部客户拓展加速。投行预测的2026年65-83亿营收如果兑现,将使其营收规模仅次于海光信息,进入国产AI芯片前三。但 核心风险 在于:百度生态依赖度仍然较高,且昆仑芯的AI专用架构(非GPU路线)在灵活性上不如全功能GPU方案。


8.1.2.3. 边缘竞争者:有潜力但在关键维度上存在短板

厂商2025年营收状态核心短板3年内进入第一梯队概率
壁仞科技10.35亿港股上市,经调整净亏8.74亿亏损严重、制程受限、客户集中中等(30-40%)
燧原科技9.90亿科创板IPO过会,净亏11.64亿84%营收依赖腾讯中等偏低(20-30%)
天数智芯10.34亿港股上市,经调整净亏4.37亿市场份额仅0.3%、体量偏小中等(25-35%)
景嘉微6.5-8.5亿A股上市,净亏1.65亿图形GPU为主、AI算力起步低(10-15%)

壁仞科技:BR100系列纸面算力惊人(INT8算力2048 TOPS),但受TSMC 7nm断供影响,后续量产和迭代面临不确定性[61240]。2025年营收10.35亿元,同比增长207%,但经调整净亏损8.74亿元,且BR20X预计2026年Q3才有测试信息、Q4至2027年大规模出货[61459]如果BR20X能顺利量产且性能对标H200,壁仞有望在2027-2028年跃入第一梯队。但时间窗口紧张——届时摩尔线程和沐曦可能已经盈利。

燧原科技:2025年营收9.9亿元,同比增长37%,但84%收入来自腾讯一家[61419]。这种”单一客户深度绑定”模式既是优势(需求确定性高),也是致命风险(议价能力弱、天花板明显)。2026年Q1营收2.87亿元,同比增长1474.85%,上半年预计10.6-11.5亿元[61418]能否进入第一梯队几乎完全取决于:能否在2026-2027年将腾讯以外的客户收入占比提升至50%以上

天数智芯:国内首家实现7nm GPGPU量产的企业,累计交付5.2万片[61207]。2025年营收10.34亿元,同比增长91.6%,推理业务收入同比增长238.2%[61400]。但市场份额仅0.3%[61204],在规模上难以与头部厂商抗衡。核心机会在于:AI推理市场的爆发式增长可能让”推理专用”定位成为差异化优势

景嘉微:作为国内稀缺的图形GPU上市公司,其核心竞争力在于军工航天(星载GPU约70%份额)和信创桌面显卡市场[61278]。2025年营收6.5-8.5亿元,但净亏损1.65亿元,高研发投入侵蚀利润[61273]图形GPU是国产替代的”最后一块拼图”,但市场规模远小于AI加速器,进入第一梯队的概率较低


8.1.3. 关键预判:2027-2028年第一梯队格局推演

基于以上分析,对2027-2028年国产GPU/AI加速器第一梯队格局做出如下推演:

8.1.3.1. 最可能的第一梯队名单(2028年)

层级厂商预计2028年营收估算核心逻辑
绝对龙头华为昇腾500-800亿(生态产值)全栈自研+万卡集群+政策首选
第一梯队海光信息300-500亿CPU+DCU双轮驱动+x86生态
第一梯队阿里平头哥200-400亿阿里云底座+外部客户加速
第一梯队寒武纪150-300亿思元系列持续迭代+互联网大厂
第一梯队百度昆仑芯100-200亿百度生态+外部渗透
准第一梯队摩尔线程80-150亿全功能GPU+MUSA生态
准第一梯队沐曦股份80-120亿训推一体+快速迭代

8.1.3.2. 核心判断逻辑

判断一:华为昇腾将继续保持”断层式领先”。华为拥有其他厂商无法复制的三个优势:①全栈自研(芯片→互联→框架→集群→超节点);②SMIC N+2/N+3产能的优先保障;③信创+政务+运营商市场的”天然主场”。昇腾的挑战不在于”能不能进第一梯队”,而在于910C良率爬坡速度和软件生态(CANN vs CUDA)的完善程度。

判断二:海光信息是”最稳健”的第一梯队选手。其”CPU+DCU”双产品线、x86兼容性、持续盈利能力和稳健的研发投入节奏(2025年研发投入45.69亿元,占营收31.78%[61154]),使其在国产算力芯片中具有最强的抗风险能力。深算四号的商业化进度将是关键变量。

判断三:阿里平头哥和百度昆仑芯是”最大变量”。这两家互联网派芯片公司如果能在2027-2028年实现”外部客户>内部客户”的转型,其营收规模可能超越所有独立GPU创业公司。反之,如果始终无法摆脱”母公司专属供应商”的标签,估值天花板将受到显著压制。

判断四:摩尔线程和沐曦的”生死线”在2027年。摩尔线程预计2027年实现全面盈利[61130],沐曦预计2026年盈亏平衡[61185]。如果这两家能在2027年同时实现 盈利+万卡集群稳定运行+大客户多元化,将正式晋级第一梯队。如果盈利持续推迟,资本市场可能失去耐心。

判断五:壁仞科技是”高风险高回报”的赌注。如果BR20X(对标H200)在2027年实现大规模出货且性能达标,壁仞可能实现”弯道超车”。但如果BR20X量产延期或性能不达标,壁仞将面临严重的代际断层风险。


8.1.4. 技术闭环的”最后一公里”:从芯片到生态的跨越

架构师观点:很多投资者和产业观察者过度关注”芯片流片成功”这个里程碑,但实际上,从”流片成功”到”技术闭环”之间还有三个巨大的鸿沟:①量产良率爬坡(从实验室die到百万片级一致性);②软件栈成熟(从”能跑ResNet”到”任何模型拿来即用”);③集群稳定性(从单卡8卡到万卡级30天无故障)。目前只有华为昇腾和海光DCU真正跨越了这三个鸿沟。寒武纪正在跨越中,摩尔线程和沐曦刚刚迈过第一个。

具体而言,“技术闭环”意味着:

  1. 芯片→板卡→服务器→集群→软件栈→行业解决方案→客户成功 的完整链条,每个环节都有可复用的方法论和可量化的SLA;
  2. 客户不只是”买卡测试”,而是”规模化采购并用于核心业务”——这是华为昇腾(三大运营商)、海光(金融能源)、寒武纪(互联网大厂)已经达到的状态,而摩尔线程(中国移动20亿合同[61134])和沐曦(超讯通信、新华三等[61184])正在接近;
  3. 软件生态形成”飞轮效应”——开发者越多→适配模型越多→客户迁移成本越低→更多客户采购→更多开发者加入。昇腾400万开发者[61065]是当前国产阵营中唯一接近”飞轮启动”的生态规模。

8.1.5. 风险提示:可能导致第一梯队重排的”黑天鹅”

风险事件影响范围概率评估
美国进一步收紧对SMIC的制裁(限制N+2/N+3产能)华为昇腾、寒武纪(依赖SMIC)中等(30-40%)
H20等阉割版芯片重新放量供应中国所有国产AI芯片厂商中低(20-30%)
国产GPU厂商间爆发价格战摩尔线程、沐曦、壁仞、天数智芯等中等(30-40%)
某头部厂商出现重大技术事故(如大规模集群崩溃)该厂商本身中低(15-25%)
AI大模型泡沫破裂导致算力需求骤降所有厂商低(10-20%)
长江存储/NMC等国产HBM突破国产供应链整体利好中等(30-40%,2027年前)

特别警示:如果美国在2026-2027年进一步收紧对SMIC先进制程的出口管制,将重创依赖SMIC N+2/N+3产能的国产AI芯片厂商。华为昇腾和寒武纪首当其冲。届时,海光信息(部分产品可转向成熟制程+CPU路线)和阿里平头哥(可能通过其他渠道获取产能)的相对优势将凸显。


8.1.6. 小结:2028年第一梯队预判矩阵

维度华为昇腾海光信息阿里平头哥寒武纪百度昆仑芯摩尔线程沐曦股份
芯片架构能力★★★★★★★★★☆★★★★☆★★★★☆★★★☆☆★★★★☆★★★★☆
软件栈成熟度★★★★☆★★★★☆★★★☆☆★★★☆☆★★★☆☆★★★☆☆★★★☆☆
AI训练能力★★★★★★★★★☆★★★★☆★★★★☆★★★☆☆★★★★☆★★★★☆
AI推理能力★★★★★★★★★☆★★★★☆★★★★☆★★★★☆★★★★☆★★★★☆
集群能力★★★★★★★★☆☆★★★★☆★★★☆☆★★★☆☆★★★★☆★★★☆☆
商业化能力★★★★★★★★★★★★★★☆★★★★☆★★★★☆★★★☆☆★★★☆☆
财务健康度★★★★☆★★★★★★★★★☆★★★★☆★★★☆☆★★★☆☆★★★☆☆
供应链安全性★★★☆☆★★★★☆★★★★☆★★★☆☆★★★★☆★★★☆☆★★★☆☆
未来3年成长性★★★★★★★★★☆★★★★★★★★★★★★★★★★★★★★★★★★☆
综合判定已确认第一梯队已确认第一梯队准第一梯队→极大概率已确认第一梯队准第一梯队→高概率准第一梯队→中高概率准第一梯队→中高概率

最终结论:如果要求用一句话预判2028年的国产GPU/AI加速器第一梯队格局——“华为昇腾是天花板,海光信息是最稳的基本盘,寒武纪是弹性最大的变量,阿里平头哥和百度昆仑芯是互联网派的双雄,摩尔线程和沐曦是全功能路线的最后希望,壁仞科技是高风险高回报的赌注。” 需要在2027年重点跟踪的关键节点包括:摩尔线程是否实现全面盈利、寒武纪思元690是否量产、沐曦C600是否大规模出货、壁仞BR20X是否按时交付、阿里平头哥真武V900是否发布。这些节点将最终决定第一梯队的座次。

8.2. 边缘化与退场风险

识别技术路线脆弱、资金链紧张、市场定位模糊的企业

当一批国产 GPU 厂商借上市潮站上舞台中央时,另一批企业正在后台的阴影里与“资金断裂—团队流失—客户退却”的恶性循环缠斗。2024‑2026 年间,象帝先的“解散→复活”、砺算科技的“零营收、高估值、反复欠薪”、芯瞳半导体的“负资产卖身”等事件,已经撕开了这条赛道华丽叙事下的伤口。本节从 技术路线脆弱性、资金链安全性、市场定位清晰度 三个维度,识别那些最可能在 3‑5 年内被边缘化、并购或退场的厂商,并提炼出可复用的预警信号体系。

8.2.1. 高危预警:已触发“死亡螺旋”的企业

以下企业并非“可能出问题”,而是 已经出过问题,正在抢救中。它们的公开信息中暴露出明确的生存危机信号。

8.2.1.1. 象帝先:中国 GPU 赛道最惨烈的“濒死体验”

象帝先是本轮国产 GPU 浪潮中最具警示意义的案例。2024 年 8 月 30 日,这家估值曾达 150 亿元的“中国版英伟达”召开全员会议,宣布因 B 轮 5 亿元对赌协议未达成,公司账户被股东起诉冻结,400 余名员工被全员解约,欠薪记在账上[61477]。创始人唐志敏一度成为被执行人,被出具限制消费令[61490]

这场危机的根源是典型的“对赌杠杆 + 烧钱速度失控”:

  • 对赌协议催化崩溃:B 轮融资签下 5 亿元对赌,但市场环境骤变下融资失败,触发“股东起诉 → 账户冻结 → 工资停发 → 团队解散”的连锁反应。企查查信息显示,欠薪问题引发了多起劳动仲裁[61492]
  • 烧钱速度远超产品节奏:公司累计融资约 20 余亿元,但产品尚未进入规模量产阶段,资金已消耗殆尽[61481]。在危机爆发前,公司已通过集体降薪(税前超过 2 万元的部分被砍掉)和裁员约百人自救,但未能扭转局面[61478]
  • 团队流失的不可逆性:核心团队外约 400 人被裁,即使 2025 年 2 月完成数亿元新一轮战略融资,引入 A 股上市公司安孚科技,“许多老员工表达了强烈的回归意愿”的官方表述恰恰反证了人才流失的严重程度[61484]

2026 年 4 月,象帝先宣布冲刺 IPO[61495]。但一家经历过“全员解散→账户冻结→创始人成老赖”的企业,其 客户信任重建、供应链关系修复、团队稳定性恢复 的难度远超表面上的“融资续命”。象帝先的未来取决于新一轮融资能否支撑到产品真正量产,以及客户是否愿意将业务部署在一家“死过一次”的芯片公司上。

架构师注:芯片行业不是互联网——客户选择 GPU 供应商相当于“押注 5 年技术路线”,象帝先的“复活”更像是 VC 的止损操作,而非市场信任的回归。

8.2.1.2. 砺算科技:零营收、高估值、反复欠薪的“鸡生蛋”困局

砺算科技是另一个“在悬崖边跳舞”的典型案例。核心数据足以说明问题:

指标数据来源
2023‑2025年7月累计营收0 元[61520]
同期累计亏损~5.1 亿元[61520]
2025年全年营收2.48 万元[61529]
2025年全年亏损4.45 亿元[61529]
投前估值(2025年8月)35 亿元[61526]
2025年Q4订单超20万片(7G100系列)[61522]

砺算的困境具有鲜明的“鸡生蛋、蛋生鸡”特征:没有流片就没有营收 → 没有营收就融不到资 → 融不到资就无法流片。2024 年 5 月,东芯股份以 2 亿元增资取得约 37.88% 股权,成为并列第一大股东[61644]。但这笔“救命钱”仅支撑到 2025 年 3 月,随后欠薪问题重现[61636]。东芯股份自身也陷入连年亏损(2023‑2025 年累计亏损超 5 亿元),无力继续输血[61530]

砺算的 7G100 系列 GPU 于 2025 年 9 月启动量产,采用台积电 6nm 工艺,2025 年 Q4 获得超 20 万片订单[61689]。这是其“绝地反击”的关键一步。但 35 亿元估值 vs 2.48 万元年营收的悬殊对比,意味着 资本市场已将“成为国产 GPU 前三”的预期全部计入估值[61526]。如果 2026 年产品交付不及预期或客户退货,估值将面临断崖式回调。此外,公司已放弃消费级市场全覆盖,转而聚焦“图形渲染+AI 加速”双核心能力,这虽能集中资源,却也缩小了市场想象空间[61507]

核心风险:砺算科技的生死取决于 7G100 系列能否在 2026 年实现规模出货并获得客户正向反馈。这不是“能否成功”的问题,而是“能否活下来”的问题。

8.2.1.3. 芯瞳半导体:负资产、跨界收购下的“流片对赌”

芯瞳半导体的处境更为微妙。2026 年 3 月,纸包装公司大胜达宣布以 5.5 亿元取得芯瞳 22.9831% 股权[61560]。敲黑板的是:芯瞳 2025 年末净资产为 -1966.97 万元,自身根本无力承担先进制程的流片费用——“大胜达这笔钱,某种程度上就是救命钱”[61566]

芯瞳半导体的财务数据:

指标2024年2025年
营收2745.75 万元5078.5 万元
净利润-1.07 亿元-4899.62 万元

大胜达的交易结构中包含一个关键条款:二期 2.5 亿元增资的唯一条件是“第三代 GPU 流片成功 + 达到约定性能”,流片失败则二期自动取消[61562]。这实质上将芯瞳的生死绑定在一次流片上。芯瞳在整体 GPU 市场占有率极低(<1%),被行业评为 T2(第二梯队),主要靠信创图形/嵌入式 GPU 细分市场维持[61570]

架构师注:一家纸包装公司跨界收购 GPU 企业,这件事本身就说明标的已经“无人接盘”到需要跨界资本来兜底。芯瞳的“壳价值”可能大于其技术价值。

8.2.2. 中危预警:表面繁荣下的结构性脆弱

以下企业已经上市或即将上市,营收规模也达到数亿元至数十亿元,但结构性风险不容忽视。

8.2.2.1. 燧原科技:83.79% 营收来自腾讯,应收账款逾期率 82.96%

燧原科技是商业化数据最“好看”的国产 GPU 厂商之一——2023‑2025 年营收从 3.01 亿元增长至 9.90 亿元,复合增长率 81.32%[61713]。但拆开收入结构,问题一目了然:

风险指标数据行业健康基准
腾讯占营收比(2025年)83.79%<30%
应收账款逾期比例82.96%<10%
坏账准备计提比例24.76%5‑10%
累计未弥补亏损44.41 亿元
经营活动现金流(2023‑2025)连续三年为负(-12亿/-18亿/-9.7亿)

这些数据均来自燧原科技招股书[61698]。高应收账款逾期率表明,燧原的营收增长部分来自“放宽信用政策换订单”——智算中心项目客户回款周期长,部分款项可能最终无法收回。腾讯既是第一大股东又是第一大客户(10 轮融资中腾讯参与 6 次),这种“股东即客户”的模式在商业化初期可以理解,但 84% 的依赖度意味着 燧原尚未证明自己能在腾讯生态之外独立生存[61714]。2026 年 Q1 公司营收 2.87 亿元,但亏损仍达 4.44 亿元,预计上半年亏损可能进一步扩大至 5.77‑6.08 亿元[61705]

8.2.2.2. 寒武纪:49 亿存货与 88.66% 客户集中度的双重挤压

寒武纪 2025 年实现上市以来首次全年盈利(营收 64.97 亿元,净利润 20.59 亿元),堪称华丽转身[61735]。但两个隐患值得警惕:

  • 存货激增 178% 至 49.44 亿元,占总资产 36.79%[61738]。这并非正常备货,而是被列入“实体清单”后的恐慌性囤货——中芯国际 7nm 产能中华为独占约 75%,寒武纪等厂商被迫争夺剩余产能[61736]
  • 前五大客户贡献 88.66% 营收,第一大客户占比超 26%[61742]。更危险的是,第一大客户(市场普遍认为系字节跳动)已组建千人团队自研 SeedChip 芯片,2026 年目标量产 35 万颗[61736]。一旦大客户“自研替代”,寒武纪将面临营收断崖。

架构师注:寒武纪的盈利质量需要打一个问号——49 亿存货中,如果制程迭代或需求转向,跌价准备可能瞬间吞噬利润。这不是“会不会”的问题,而是“什么时候”的问题。

8.2.2.3. 景嘉微:GPU 芯片业务占比不足 30% 的“伪 GPU 股”

景嘉微顶着“国产 GPU 第一股”的光环,但 2025 年营收结构暴露了真相:图形显控业务(军工)贡献 4.51 亿元(占比 62.6%),芯片(GPU)业务营收仅 1.35 亿元,且同比下滑[61618]。2025 年全年营收 7.20 亿元,净利润亏损 1.65 亿元,研发费用 4.28 亿元(占营收 60%)[61619]

景嘉微的核心矛盾在于:军工业务的壁垒(市占率超 90%)无法自然延伸到民用市场。JM9 系列 GPU 性能接近 AMD Radeon Pro,但主要应用于信创 PC 场景,与 AI 大模型、智算中心等主流需求存在巨大鸿沟。公司正在推进“GPU + 边端侧 AI SoC”双轮驱动,但边端 AI 芯片 CH37 系列 2025 年刚量产,营收贡献尚微不足道[61623]。未来 6‑12 个月的转型成败取决于 JM11 量产放量和 CH37 的客户验证,失败则可能滑向“军工业务维持、GPU 芯片边缘化”的路径[61632]

8.2.2.4. 摩尔线程:扣非仍亏损,前五大客户贡献 91% 营收

摩尔线程 2025 年营收 15.06 亿元,同比增长 243.37%,但归母净利润仍亏损 10.01 亿元[61650]。2026 年 Q1,公司账面虽实现盈利,但扣除政府补助等非经常性损益后,扣非净利润仍亏损 5428 万元[61740]。更值得警惕的是,前五大客户贡献了 91% 的销售额,客户集中度极高。3 月签订的 6.6 亿元夸娥智算集群大单接近当季营收的九成,说明其大规模智算集群交付能力虽获验证,但营收结构同样脆弱。一旦大客户采购节奏放缓,业绩将剧烈波动。

8.2.2.5. 天数智芯:毛利率下行,亏损仍在扩大

天数智芯 2025 年营收 10.34 亿元,同比大增 91.6%,但净亏损也扩大至 10.04 亿元,毛利率从 2022 年的 59.4% 降至 2025 年上半年的 50.1%[61597]。低毛利的 AI 算力解决方案业务占比提升,以及新品迭代、定价策略调整,正在侵蚀盈利基础。公司累计出货 5.2 万片,服务 290 余家客户,但单客户规模仍偏小(平均约 180 片),商业化深度不足[61614]。在摩尔线程、沐曦等竞争对手亏损收窄的背景下,天数智芯若不能在 2026 年推出显著改善毛利率的新一代产品,其在资本市场的估值将面临考验。

8.2.3. 低危但需持续跟踪:定位模糊的“中间层”与“大厂附庸”

8.2.3.1. 登临科技:商业化进程“信息黑箱”

登临科技是国产 GPU 中信息最不透明的企业之一。公开可查的最新融资为 2025 年 1 月由高通创投与光远资本参与的战略融资[61539],以及更早的中网投独家投资[61537]。其 Goldwasser™(高凛™)系列产品声称覆盖数据中心和边缘计算,但 缺乏公开的营收数据、客户案例和出货量信息。在“GPU 四小龙”集体冲刺 IPO 的背景下,登临的沉默显得格外突出。不排除其在特定细分市场(如边缘推理)有差异化优势,但公开资料不足以支撑任何确定判断。

8.2.3.2. 瀚博半导体:估值 105 亿但产品线“大而全”的隐忧

瀚博半导体 2025 年 7 月启动 IPO 辅导,估值 105 亿元,融资总额超 25 亿元[61581]。其产品矩阵从智算中心覆盖到边缘设备,包括 AI 大模型一体机、边缘 GPU 等。但“大而全”的产品线需要“大而全”的研发投入支撑——在摩尔线程、沐曦、壁仞等已上市或即将上市的竞争对手面前,瀚博的 IPO 窗口期正在收窄。如果 2026 年未能成功上市,后续融资压力将急剧增大。

8.2.3.3. 昆仑芯:外部收入比例仍低,独立生存能力待验证

昆仑芯 2025 年预计营收 35 亿元,实现盈亏平衡,外部客户贡献占比首超 50%,看似已摆脱“百度专属供应商”标签[61759]。但高盛报告指出,“截至 2025 年末,昆仑芯外部销售额占比仍较低”[61754]。摩根大通预测其 2026 年营收将飙升至 83 亿元,这一预期高度依赖 AI 算力需求的持续爆发[61764]。若大模型商业化不及预期,或百度自身 AI 战略调整,昆仑芯的独立成长性将面临挑战。

8.2.4. 边缘化与退场的“预警信号”体系

根据对上述案例的归纳,国产 GPU 企业边缘化/退场存在一条可识别的“信号链”:

阶段信号已触发企业
第一阶段:资金预警融资轮次间隔超过 18 个月;估值持平或下调;出现欠薪/降薪传闻象帝先(2024年初)、砺算科技(2023‑2024)
第二阶段:团队松动核心技术人员离职;裁员 20% 以上;创始人股权被冻结象帝先(2024年8月)、砺算科技(2024年)
第三阶段:供应链断裂流片延期 6 个月以上;无法支付晶圆代工预付款;被供应商起诉象帝先(2024年Q3)
第四阶段:客户流失前三大客户终止合作;已签署框架协议无法转化为正式订单尚未大面积出现(行业仍处早期)
第五阶段:退出/并购被收购;IPO 失败后清算;转为“壳公司”芯瞳半导体(被大胜达收购中)

架构师注:目前国产 GPU 行业的大多数企业尚处于第一至第二阶段,真正进入第四、第五阶段的企业极少。但这并非因为行业健康,而是因为 2025‑2026 年的上市潮为企业提供了“续命”的资金窗口。真正的淘汰赛将在 2027‑2028 年到来——届时,上市企业的“烧钱”耐心耗尽,未上市企业的融资渠道枯竭,市场将出现第一波大规模出清。

8.2.5. 谁最可能被边缘化:风险排序

综合技术路线脆弱性、资金链安全性、市场定位清晰度三个维度,给出以下边缘化/退场风险排序:

风险等级企业核心风险因素3年内生存概率(主观评估)
🔴 极高砺算科技零营收历史、估值虚高、核心股东自身亏损、反复欠薪40‑50%
🔴 极高芯瞳半导体负资产、跨界收购方资金有限、流片失败即断供35‑45%
🟠 象帝先历史信用破产、团队重建不确定、客户信任修复难50‑60%
🟡 中高登临科技信息不透明、缺乏上市计划、商业化数据缺失55‑70%(数据不足,置信度低)
🟡 景嘉微GPU 芯片业务边缘化、军工业务与 AI 赛道脱节70‑80%(军工业务提供安全垫)
🟡 天数智芯毛利率下行、亏损扩大、单客户规模小70‑80%(商业化基础扎实,但盈利压力大)
🟢 中低燧原科技客户高度集中、应收账款质量差、但腾讯生态支撑75‑85%
🟢 中低摩尔线程扣非仍亏损、客户集中度高、但上市平台融资能力强80‑90%
🟢 寒武纪已盈利、上市平台融资能力强、但客户集中度和存货风险需持续关注85‑95%

重要声明:以上生存概率为主观评估,不构成投资建议。数据来源为各公司招股书、年报及公开报道,评估框架基于“技术路线×资金链×客户结构”的三维模型。

8.2.6. 边缘化的三种典型路径

从全球半导体产业史来看,中国 GPU 企业未来可能通过以下三种路径走向边缘化或退场:

路径一:“PPT 芯片”→ 资金耗尽 → 解散(如早期的象帝先)
特征是:团队背景豪华、融资额巨大、但产品始终停留在“流片成功”阶段,无法转化为商业订单。资金耗尽后没有下一个“安孚科技”接盘。

路径二:“大客户捆绑”→ 客户自研替代 → 营收断崖(潜在风险:寒武纪、燧原)
特征是:营收高度依赖 1‑2 个大客户,而大客户本身在推进自研芯片。一旦大客户芯片量产,外部采购将急剧萎缩。寒武纪的最大客户字节跳动已自研 SeedChip,燧原的腾讯虽未明确自研,但过度依赖单一客户始终是定时炸弹。

路径三:“上市即巅峰”→ 股价破发 → 融资能力丧失 → 慢性死亡
特征是:借助市场情绪高估值上市,但后续季报持续不及预期,股价跌破发行价,失去再融资能力,最终沦为“壳公司”或被低价并购。摩尔线程、沐曦股价已出现大幅波动,投资者需警惕这一路径的兑现[61695]

架构师注:路径三最值得警惕。2025‑2026 年上市的国产 GPU 企业,市值普遍在数百亿至数千亿元,但营收仅 10 亿元级别。这不是“价值发现”,而是“流动性溢价”。一旦市场情绪逆转,这些企业的股价可能面临比基本面更剧烈的调整,而股价下跌又会反过来削弱其融资能力和人才吸引力,形成负反馈循环。

8.2.7. 小结:淘汰赛的时间表

国产 GPU 行业的淘汰赛并非均匀分布,而是有三个关键时间窗口:

时间窗口触发事件受影响企业
2026 年 H2科创板/港股 IPO 窗口关闭,未上市企业融资难度骤增瀚博半导体、登临科技、未上市中小厂商
2027 年 H1头部企业(摩尔线程、沐曦)承诺的“盈亏平衡”时间点到期,市场验证商业模式所有已上市企业
2028 年 H2美国可能放宽 H200/B200 出口管制,国产 GPU 面临“回头潮”考验所有以“制裁红利”为核心逻辑的企业

这三个窗口中,2028 年的“回头潮”窗口最具杀伤力。如果届时英伟达更高性能芯片恢复供应,而国产 GPU 在软件生态、集群稳定性、TCO 方面仍无实质突破,中国互联网大厂的“主动选择”将给出最终答案。届时,今天我们讨论的“边缘化”可能变成“集体退场”。

8.3. 并购整合逻辑

分析产业内横向并购、纵向整合与大厂收编的可能性

如果把国产GPU/AI芯片行业比作一场“饥饿游戏”,那么2024-2026年已经进入了“贡品互相残杀”的阶段。本章从 横向并购、纵向整合、大厂收编、跨界救援、资本退出 五个维度,系统推演这场产业大洗牌的底层逻辑。


8.3.1. 核心判断:并购整合不是“会不会发生”的问题,而是“以什么方式发生”的问题

2025年,国产GPU厂商的集体IPO并非终点,而是 淘汰赛的起跑枪。截至2026年6月,已有摩尔线程(科创板,市值3100亿元)、沐曦股份(科创板,市值2500亿元)、壁仞科技(港股)、天数智芯(港股,市值约400亿港元)等先后登陆资本市场 [1]。与此同时,燧原科技科创板IPO已获受理、昆仑芯已秘密递表港交所、平头哥传出独立上市计划 [3]

上市潮的背后,是 残酷的财务现实

公司2022-2024累计亏损2024年营收最新融资/募资现金储备(最近报告期)
摩尔线程超50亿元4.38亿元IPO募资80亿元公开数据有限
沐曦股份超30亿元7.43亿元10轮融资+IPO可支配72.90亿元(2025Q1末)
壁仞科技超47亿元(三年半63亿)3.37亿元IPO募资42-48亿港元公开数据有限
天数智芯超22亿元5.39亿元D+轮20.5亿+IPO募资37亿港元公开数据有限
燧原科技公开数据有限(累亏超50亿)公开数据有限融资近70亿元公开数据有限

来源:[6]

一个残酷的算术题:如果一家GPU公司年亏10亿,账上有50亿现金,它还有5年活路。但5年之后呢?如果产品无法形成规模化收入,并购或被并购就是唯一的出口。


8.3.2. 横向并购:芯片公司之间的“同类相食”

8.3.2.1. 海光-曙光:国产算力“航母级”并购的样本——及其失败

2025年5月,海光信息宣布拟以换股方式吸收合并中科曙光,交易金额高达 1160亿元,堪称中国半导体史上最大并购案 [11]。逻辑是:芯片厂(海光)收购整机厂(曙光),实现“芯片→模组→整机→系统”全栈闭环 [12]

然而,2025年12月9日,这场世纪并购 正式宣告终止。官方原因:“交易规模大、涉及相关方多,方案论证历时较长,且目前市场环境较筹划之初发生较大变化,实施条件尚不成熟” [13]

更深层的原因,业内分析包括:

  • 股价波动剧烈:自8月中旬以来,双方股价大幅上涨并剧烈波动,导致换股比例难以锁定 [14]
  • 监管审批复杂性:作为重组新规后首单案例,涉及反垄断、国资审批等多重关卡 [15]
  • “子吞母”结构敏感:海光信息作为中科曙光的控股子公司反向吸收合并母公司,股权结构复杂 [16]

海光-曙光案例的启示:国产算力的“航母级整合”方向正确,但执行极其困难。 横向并购在半导体行业绝非简单的“1+1”,而是一场涉及控制权、估值、监管、利益博弈的极限挑战。

8.3.2.2. 芯原股份:IP龙头的“拼图式”并购

芯原股份(688521.SH)作为中国最大半导体IP供应商,正在通过并购构建“CPU+GPU+NPU+接口IP”的全栈能力:

时间并购标的标的业务交易目的状态
2016年图芯美国(Vivante)GPU IP获得GPU IP核,补齐图形IP矩阵已完成
2025年8月芯来科技(97%股权)RISC-V CPU IP补齐CPU IP,成为国内唯一“CPU+非CPU IP”全栈RISC-V供应商预案阶段
2025年10月逐点半导体(控制权)显示芯片/视觉处理拓展AI-ISP芯片市场推进中

来源:[17]

芯原董事长戴伟民明确表示:“产业下行时期是半导体IP行业整合的良好时机。作为半导体IP和一站式芯片定制服务平台的行业龙头,芯原股份非常适合做并购。” [20]

芯原的并购逻辑是典型的“横向IP拼图”——把GPU IP、CPU IP、NPU IP、ISP IP拼成一张完整的AI芯片设计平台。这种模式在全球范围内对标的是ARM(CPU IP)+ Imagination(GPU IP)的组合,但芯原通过并购实现了“一站式”。

8.3.2.3. 东芯股份 × 砺算科技:存储芯片公司“跨界救援”GPU

这是最具戏剧性的横向整合案例之一:

  • 2023年:砺算科技爆发资金问题,进入超过一年的非正常运营状态,欠薪长达7个月 [21]
  • 2024年8月:存储芯片上市公司东芯股份(688110.SH)以 2亿元 增资上海砺算,获得37.88%股权。本轮砺算投前估值仅 2亿元——对于一个曾宣称对标英伟达的GPU创业公司,这几乎等于“贱卖” [22]
  • 2025年8月:东芯股份再次向砺算增资 2.11亿元,持股升至35.87%,成为第一大股东。本轮砺算投前估值已飙升至 35亿元 [23]

东芯股份的逻辑是“存、算、联”一体化战略——将自身存储芯片(NAND/DRAM)与砺算的GPU芯片组合,提供存算一体解决方案 [24]

这是“穷小子娶了落魄公主”的故事。东芯花了不到5亿元,拿到了一家GPU公司的控股权——而这家公司曾在2022年估值数十亿。对于砺算,这是“卖身续命”;对于东芯,这是一张“GPU入场券”。


8.3.3. 纵向整合:芯片→系统→云服务的“全栈收编”

8.3.3.1. 华为昇腾:已完成的垂直整合范本

华为昇腾是目前国产GPU中 唯一实现“芯片+框架+整机+云服务”全栈闭合 的厂商:

  • 芯片层:昇腾910B/910C → 自研达芬奇架构
  • 框架层:MindSpore(昇思)+ CANN异构计算架构
  • 整机层:Atlas系列服务器 → 通过认证的合作伙伴(华鲲振宇、宝德、昆仑技术、超聚变等)
  • 云服务层:华为云提供昇腾云实例

关键动作:2021年华为将x86服务器业务剥离为超聚变(后由河南国资接手),自己保留基于鲲鹏/昇腾的服务器业务 [25]。超聚变此后独立发展,2024年营收超400亿元,2025年目标500亿元,并已启动IPO辅导 [26]

华为对昇腾生态的“收编”体现在:华为掌握芯片定价权、CANN软件栈控制权、以及整机合作伙伴的认证权。整机厂商(如宝德、华鲲振宇)本质上是华为的“渠道+组装”角色,利润率受挤压 [28]

华为的模式是“帝国式垂直整合”——它不收购你,但你离不开它。昇腾的整机合作伙伴们(宝德、华鲲振宇、超聚变等)本质上是在华为的“领地”内耕作,享受昇腾的品牌红利,但缺乏独立定价权。

8.3.3.2. 阿里平头哥:“通云哥”全栈AI的芯片底座

阿里平头哥的“真武”PPU是纵向整合的另一个范式:

  • 芯片:真武810E PPU → 性能对标英伟达H20 [29]
  • 云平台:阿里云 → 真武已在阿里云实现多个万卡集群部署
  • 大模型:通义千问 → 大规模使用真武进行训练和推理

阿里已形成“通义(大模型)+ 阿里云(云平台)+ 平头哥(芯片)”的“通云哥”全栈AI体系 [30]。2024年平头哥营收中,来自阿里云的内部采购占比约60% [31]——这意味着平头哥在商业化早期,最大客户就是“自己家”。

2026年1月,传出阿里计划推动平头哥独立上市的消息 [32]。这是互联网大厂“孵化→内部供养→分拆上市”的标准路径。

阿里模式是“内部试验场”逻辑——先用自己的云业务养芯片,成熟后再推向市场。平头哥的“真武”本质上是一个“含着金钥匙出生”的富二代,与那些从零开始找客户的独立GPU创业公司相比,起点完全不同。

8.3.3.3. 百度昆仑芯:从“内部部门”到“独立上市”

昆仑芯的路径是纵向整合的“反向操作”——先内部孵化,再独立分拆:

  • 前身:百度智能芯片及架构部(2011年起布局)
  • 2021年4月:独立融资,首轮估值约130亿元,百度持股59.45% [33]
  • 2025年7月:D轮融资,估值210亿元 [34]
  • 2026年1月:秘密递表港交所 [35]

百度明确表示,分拆后昆仑芯 仍将是百度的附属公司 [36]。这意味着昆仑芯上市后,百度仍将保持控制权,同时享受资本市场溢价。

值得注意的是,昆仑芯的“独立”成色有限——据高盛报告,“截至2025年末,昆仑芯外部销售额占比仍较低” [37]。其2024年营收超10亿元(2025年预计达50亿元),但相当比例来自百度内部采购 [38]

昆仑芯的案例揭示了“大厂内部芯片部门”的尴尬:技术上可以快速迭代(因为有内部场景),但商业化上很难独立行走。分拆上市是“既要百度输血,又要资本市场定价”的两全之策,但独立性的拷问会一直存在。


8.3.4. 大厂收编:互联网巨头的“芯片投资版图”

中国互联网巨头在GPU/AI芯片领域的投资布局,本质上是一场 战略性收编——腾讯、阿里、字节、百度通过投资+采购+生态绑定,将芯片创业公司“驯化”为自身供应链的一环。

互联网巨头被投GPU/AI芯片公司持股比例投资轮次战略意图
腾讯燧原科技约20.26%(第一大股东)连续6轮深度绑定:既是最大股东,也是最大客户
腾讯摩尔线程曾投资,已退出早期字节也曾在2025年1月退出
阿里平头哥(全资)100%全资子公司“通云哥”全栈AI底座
阿里瀚博半导体未公开早期边缘推理+视频处理
阿里清微智能未公开早期可重构计算架构
百度昆仑芯59.45%控股股东百度AI基础设施
字节跳动摩尔线程曾投资,2025年1月退出早期以约2.3亿元转让股权
字节跳动华为昇腾采购方2025年计划采购240亿元国产AI芯片
字节跳动天数智芯采购方讨论采购至少5万颗推理GPU

来源:[39]

大厂收编的核心逻辑

  1. 腾讯 × 燧原:最典型的“股东+客户”绑定。腾讯连续6轮投资,持股约20%,是燧原第一大股东。同时,腾讯拥有600多个业务场景,燧原算力在腾讯社交、游戏、办公等场景中大规模落地 [45]。燧原招股书显示,其与腾讯的关联交易占比极高——这也是监管问询的焦点 [46]

  2. 字节跳动:从“投资人”转向“超级采购方”。字节2025年计划采购240亿元国产AI芯片,华为昇腾和寒武纪是主力供应商 [47]。字节还计划向天数智芯采购至少5万颗推理GPU [48]。字节自己的芯片团队也在扩张——2026校招已开放AI芯片架构师、ASIC验证工程师等岗位 [49]。字节的模式是“先采购、再自研、最终可能自给自足”。

  3. 阿里:全资控股平头哥,同时通过投资布局生态。阿里已投入3800亿元用于AI基础设施 [50],平头哥芯片“自产自销”的优势是独立GPU创业公司无法比拟的。

互联网大厂对国产GPU创业公司的“收编”正在从“投资”升级为“绑定”。对于创业公司,被大厂“宠幸”是双刃剑——有了稳定的订单和场景,但失去了独立性。更残酷的是,大厂最终可能自研芯片,届时被投公司将从“战略伙伴”变成“竞争对手”


8.3.5. 跨界救援:当“卖电池的”来救“做芯片的”

这是国产GPU行业最“出圈”的整合现象——非半导体行业的上市公司,出于“找第二增长曲线”的目的,跨界投资濒危GPU公司。

8.3.5.1. 案例一:安孚科技(南孚电池)→ 象帝先

  • 2024年8月:象帝先因对赌失败,资金链断裂,裁掉约80%员工(约400人),公司进入“休眠”状态 [51]
  • 2025年2月:安孚科技(603031.SH,南孚电池母公司)通过子公司启睿芯超投资象帝先 1亿元,获得约6.9%股权 [52]
  • 安孚科技的逻辑:公司需要“寻找第二曲线”,看中象帝先的“先进技术、精英团队以及行业经验积累” [53]

安孚科技此前最出名的事迹,是通过一系列资本运作让南孚电池实现上市。如今,这节“南孚电池”给GPU芯片公司续上了命 [54]

🤣 这可能是全球GPU行业最“魔幻”的一幕:一家卖电池的上市公司,成为了一家GPU独角兽的“白衣骑士”。但换个角度想,这也是中国半导体行业的一个悲哀——专业的半导体产业资本不够充沛,只能靠“外行”来救场。

8.3.5.2. 案例二:东芯股份(存储芯片)→ 砺算科技

前文已详述,东芯股份作为存储芯片公司,以累计约4.11亿元投资砺算科技,成为第一大股东 [23]

8.3.5.3. 案例三:品高股份(云服务/软件)⟷ 江原科技(AI芯片)

2025年11月,品高股份以“4亿元增资+5亿元股权转让”的组合拳,与江原科技形成 双向持股闭环——品高成为江原科技第二大股东(15.42%),江原系也同步成为品高股份第二大股东(12%)[55]

江原科技2024年营收仅3000万元,净亏损1.47亿元 [56]。品高股份的这笔9亿元投资,赌的是“软硬件一体化”的国产算力未来。

跨界救援的逻辑是:半导体行业太烧钱,专业VC不敢跟,只有“外行”才敢赌。 但这些“外行”的钱能撑多久?当电池、存储、软件公司的耐心耗尽,下一棒谁来接?


8.3.6. 整合路径推演:四条主线

基于以上分析,国产GPU行业的整合将沿以下四条主线展开:

8.3.6.1. 主线一:“国家队”收编路线

海光+曙光 虽然失败了,但方向不会变。未来可能的路径:

  • 海光+曙光重启:双方表示“至少1个月内不再筹划”,但逻辑上,产业链上下游整合的需求不会消失 [13]
  • CEC/CETC体系整合:中国电子(CEC)和中国电科(CETC)旗下拥有多家芯片相关企业,存在体系内整合的可能;
  • 大基金主导的合并:国家集成电路产业投资基金在燧原科技、壁仞科技等多家公司中持有股份,有可能推动被投企业之间的合并重组。

判断:海光-曙光案例的失败不代表“国家队整合”方向的失败,而是说明 行政主导的合并面临巨大的执行阻力。未来更可能的是“市场驱动+政策引导”的渐进式整合。

8.3.6.2. 主线二:互联网大厂“收编”路线

最可能被大厂收编的公司画像

特征符合的公司收编逻辑
大厂已持股>20%燧原科技(腾讯持股20%)腾讯进一步提升持股比例至控股
大厂是最大客户燧原科技、天数智芯通过采购协议锁定排他性合作
技术路线与大厂匹配瀚博半导体(边缘推理→阿里)大厂云业务边缘场景需要专用芯片
估值低、资金紧张象帝先、砺算科技低价收购,补齐GPU能力

判断:腾讯对燧原的“收编”已经完成了80%——第一大股东+第一大客户+董事会席位。未来如果燧原IPO不顺利,腾讯进一步增持至控股是大概率事件。

8.3.6.3. 主线三:上市公司的“跨界并购”路线

这条路线最不可预测,但也最活跃:

  • 安孚科技(电池)→ 象帝先:已发生
  • 东芯股份(存储)→ 砺算科技:已发生
  • 品高股份(软件)→ 江原科技:已发生

潜在的跨界并购者包括:

  • 服务器厂商(浪潮、新华三、联想)→ 收购GPU公司实现“芯片+整机”垂直整合
  • 汽车电子公司(德赛西威、均胜电子)→ 收购自动驾驶芯片公司
  • 安防公司(海康威视、大华)→ 收购边缘AI推理芯片公司

判断:跨界并购的驱动力是“找第二曲线”,但风险极高。芯片行业的技术门槛、烧钱速度和竞争烈度,对于“外行”来说往往是“认知盲区”。

8.3.6.4. 主线四:GPU公司之间的“合并同类项”

这是目前最没有发生的,但逻辑上最可能发生的整合方式:

可能的合并组合逻辑障碍
摩尔线程 + 沐曦全功能GPU(MTT)+ AI训推(沐曦),产品互补都已上市,体量接近,谁主导?
壁仞科技 + 天数智芯都是GPUGPU路线,合并可减少重复投资均已上市,整合成本高
景嘉微 + 象帝先图形GPU(景嘉微)+ 新架构(象帝先)一个在长沙,一个在重庆,文化差异大
燧原科技 + 瀚博半导体腾讯系(燧原)+ 阿里系(瀚博),但股东不同大厂博弈,难以撮合

判断:GPU创业公司之间的合并,在2026-2027年可能成为现实。 当IPO窗口关闭、融资环境恶化、产品同质化严重时,两家公司合并以“抱团取暖”是最理性的选择。但最大的障碍是“创始人的ego”——每个GPU创始人都有一个“中国英伟达”的梦,谁愿意当“被合并方”?


8.3.7. 整合的“不可能三角”与终局判断

国产GPU行业的整合面临一个 不可能三角

        技术自主性
           /\
          /  \
         /    \
        /  不可能 \
       /   三角    \
      /            \
     /______________\
  资本充裕度      市场规模
  • 技术自主性:真正的“国产GPU”需要从IP到软件栈完全自主,但这需要天量研发投入;
  • 资本充裕度:IPO募资和融资可以提供短期弹药,但持续亏损会耗尽现金;
  • 市场规模:信创和智算中心市场虽然增长快,但在英伟达的压制下,国产GPU的份额天花板有限。

终局判断

  1. 3-5年内,国产GPU行业将从“20+家公司”收敛到“3-5家核心玩家”。参考全球GPU行业的历史——从1990年代的数十家GPU公司,最终收敛到NVIDIA+AMD两家,中国的收敛速度可能更快。

  2. “华为昇腾”将占据约40-50%的国产算力市场,扮演“中国英伟达”的角色。Bernstein预测2026年华为将以50%市场份额成为国内AI加速器市场Top1 [57]

  3. 剩下2-3家存活者,将分别占据以下生态位:

    • 一个 全功能GPU(摩尔线程最有可能)
    • 一个 AI训推专用(沐曦或壁仞)
    • 一个 大厂生态绑定型(燧原绑定腾讯,昆仑芯绑定百度)
  4. 被并购或边缘化的公司:砺算科技(已被东芯控股)、象帝先(跨界资本续命,但前景不明)、瀚博半导体(生态位窄)、芯瞳半导体(规模太小)。

  5. 最可能被并购的公司特征:技术有特色但商业化失败、估值大幅缩水、创始人愿意接受“卖身”、有大厂或上市公司作为潜在买家。


8.4. 技术路线成败预判

评估全功能GPU、AI专用加速器、CUDA兼容路线、RISC-V GPU IP等路线的未来前景

核心洞察:如果把国产GPU/AI加速器赛道的技术路线之争比作一场”赌石”——全功能GPU是赌”开窗见绿”的翡翠原石,AI专用加速器是赌”一刀切出满色”的和田玉,CUDA兼容路线是赌”高仿”能卖出真品价,RISC-V GPU IP则是赌”自己种玉”能成。2025-2026年,随着摩尔线程盈利、华为昇腾出货量翻倍、燧原科技产品结构失衡等关键信号出现,各条路线的”成色”正在被资本市场和客户需求这两把”强光手电”照得越来越清楚。

8.4.1. 路线全景回顾与最新动态

在进入预判之前,先厘清一个基础事实:国产GPU/AI加速器赛道并非只有一条路,而是四条主干路线和若干变体并行的”技术丛林”。许多被媒体统称为”国产GPU”的公司,本质上是AI加速器公司而非GPU公司——它们没有完整的图形渲染管线(Graphics Pipeline),不支持DirectX/Vulkan/OpenGL,无法运行游戏、CAD或数字孪生工作负载[63070]。区分这一点对投资判断至关重要——两类公司的市场空间、客户群和竞争壁垒完全不同。

路线核心特征代表厂商是否真正”GPU”最新关键动态(2025-2026)
全功能GPU单芯片覆盖AI计算+3D图形渲染+视频编解码+物理仿真摩尔线程、沐曦、芯动科技(风华)、景嘉微✅ 是摩尔线程2026Q1盈利、花港架构发布;沐曦曦云C600量产;风华3号发布
AI专用加速器(DSA/ASIC)自研指令集+自研框架,专注AI训推,放弃图形华为昇腾、寒武纪、燧原、昆仑芯、平头哥❌ 不是昇腾910C量产,2026年预计出货120万张;燧原L600发布但训推一体仅占1.15%
CUDA兼容路线API层面兼容CUDA,通过源码重新编译或中间件实现迁移摩尔线程(MUSIFY)、沐曦(MXMACA)、壁仞(BIRENSUPA)⚠️ 硬件自有,生态借道英伟达EULA禁令引发争议;中国市场监管总局对英伟达反垄断调查
RISC-V GPU IP以RISC-V为核心控制CPU+自研GPU着色器IP芯动科技(风华3号)、芯原股份(Vitality IP)⚠️ GPU IP+芯片风华3号集成南湖V3 RISC-V核;芯原收购芯来失败;NVIDIA将CUDA移植至RISC-V

关键区分:CUDA兼容不是一条独立的芯片架构路线,而是一种 软件生态策略。它横跨全功能GPU(摩尔线程)、GPGPU(壁仞)、AI加速器(部分厂商)等多条硬件路线,核心问题是”要不要兼容CUDA”而非”芯片是什么架构”。因此,本节将CUDA兼容作为独立维度进行横向评估,而非替代上述硬件路线分类。

8.4.2. 路线一:全功能GPU——“最难的路,但可能是最对的路”

8.4.2.1. 路线逻辑

全功能GPU路线追求 单芯片同时覆盖四大引擎:AI计算加速、3D图形渲染(支持DirectX 12 Ultimate / Vulkan 1.3 / OpenGL 4.6)、物理仿真、超高清视频编解码[62291]。这本质上是在复制NVIDIA的”一卡打天下”模式——从GeForce游戏卡到Quadro专业卡再到Tesla/A系列数据中心卡,共享同一底层架构。

8.4.2.2. 最新进展与关键信号

2025-2026年是全功能GPU路线的”验证之年”,几个关键信号值得关注:

正面信号

  • 摩尔线程2026年Q1实现盈利:归母净利润2936万元,成为全功能GPU路线首家实现单季度盈利的厂商[61378]。全年营收从2022年的0.46亿飙升至2025年的15.05亿,三年增长超32倍[61394]。这证明全功能GPU路线在商业上是可以跑通的,而非”永远烧钱”。

  • 花港架构发布:2025年12月摩尔线程首届MUSA开发者大会上发布的第五代架构”花港”,算力密度提升50%、能效提升10倍,支持FP4至FP64全精度计算,可支持十万卡以上规模智算集群[62510]。未来将基于该架构推出高性能AI训推一体”华山”芯片与专攻高性能图形渲染的”庐山”芯片[62512]。这表明全功能GPU路线的技术迭代节奏(一年一代)已经建立。

  • 沐曦曦云C600量产:性能介于A100和H100之间,具备FP8计算单元,配备大容量显存(超过H20的96GB版本),基于MetaXLink高速互连技术[62193]。下一代C700系列性能对标H100,预计2027年下半年量产[62189]

  • 芯动科技风华3号发布:2025年9月,全球首款集成国产开源RISC-V CPU(南湖V3)与CUDA兼容GPU的芯片发布,FP32算力78 TFLOPS,支持DX12/Vulkan/光线追踪[62873]。从IP集成到仿真验证仅用2个月,证明了RISC-V+GPU融合的技术可行性[62889]

警示信号

  • 图形性能差距仍然巨大:摩尔线程MTT S80单精度浮点算力仅接近NVIDIA RTX 3060(2021年产品)[62189],景嘉微JM9对标GTX 1080(2016年产品)[63127],与NVIDIA最新RTX 5090的差距在3-5代以上。

  • 游戏/消费级市场几乎不可能突破:NVIDIA和AMD在PC游戏GPU市场积累的软件优化(Game Ready驱动)、开发者关系(GameWorks)和品牌认知,是国产厂商在可预见的未来无法逾越的鸿沟。砺算科技虽然发布了7G100系列显卡(对标RTX 4060),但市场声量和实际出货量仍然有限[62318]

  • 研发投入巨大:摩尔线程三年累计研发费用约38亿元才勉强跑通,沐曦累计亏损超32.9亿元[62184]。全功能GPU的研发投入是AI专用加速器的2-3倍,对资金实力要求极高。

8.4.2.3. 预判:✅ 前景最广阔,但仅1-2家能真正跑通

有利因素

  • 场景覆盖最广:智算中心AI训练+推理、云桌面/云游戏、工业仿真/CAD、数字孪生、地理信息系统——全功能GPU可以”一鱼多吃”,单一客户可以采购同一品牌覆盖多个场景,极大降低客户采购和运维复杂度[62256]
  • 与NVIDIA路线最接近:软件迁移成本最低。摩尔线程MUSA SDK 4.0.1已支持Intel、ARM、海光、龙芯、麒麟等多种CPU平台,MUSIFY工具可实现CUDA代码”零成本迁移”[62199]
  • 国产替代需求刚性:在党政军信创PC场景中,对图形GPU的需求是硬性的,AI加速卡无法替代。景嘉微在军用显控GPU市场的垄断地位(约70%星载GPU份额)验证了这一需求的刚性[63140]
  • 摩尔线程的盈利拐点出现:2026年Q1的盈利是全功能GPU路线从”烧钱”到”盈利”的标志性事件,为后续厂商提供了可参照的商业化路径[61378]

不利因素与风险

  • 技术难度最高:图形管线涉及顶点着色器、几何着色器、光栅化、像素着色器、纹理单元、ROP等数十个模块的精密协同,加上AI张量核心和视频编解码,芯片规模是纯AI加速器的2-3倍。
  • 与NVIDIA差距仍在拉大:NVIDIA Blackwell架构已实现2080亿晶体管,Rubin平台推理性能达Blackwell的5倍[62273]。国产全功能GPU在制程、架构、软件生态三个维度同时追赶,压力巨大。
  • 能效比在推理场景不占优:在推理场景下,AI专用加速器(ASIC)的能效比可达GPU的10倍以上。当AI算力市场从”训练稀缺”走向”推理过剩”,全功能GPU在推理场景的性价比劣势将凸显。

预判结论

全功能GPU路线 长期前景最好,但 短期存活率最低。未来3-5年,预计仅有 摩尔线程沐曦(弱化图形版)能真正跑通商业化闭环。景嘉微凭借军用+信创的特殊壁垒可维持生存,但难以进入数据中心AI算力主战场。芯动科技风华3号的RISC-V+GPU融合方案在技术上令人印象深刻,但量产和生态建设仍需时间验证。

关键判断:全功能GPU路线的”全功能”价值在2026年以后才能真正体现——当AI算力市场从”稀缺”走向”过剩”,客户开始关注芯片的 多场景复用能力TCO(总拥有成本) 时,能同时做AI训练+推理+图形渲染+视频处理的芯片,其资产利用率将显著优于AI专用加速器。

8.4.3. 路线二:AI专用加速器(DSA/ASIC)——“效率之王,但天花板可见”

8.4.3.1. 路线逻辑

AI专用加速器路线的核心信条是:“既然90%的市场需求是AI,为什么还要背着图形渲染的包袱?” 这条路线的厂商主动放弃图形渲染管线,将全部晶体管和芯片面积投入到AI矩阵计算中,追求在特定AI负载上的极致能效比和性价比。这与Google TPU的哲学一致:领域专用,极致效率[63096]

8.4.3.2. 最新进展与关键信号

正面信号

  • 华为昇腾的规模效应:2025年昇腾芯片出货约52万张,2026年预计翻近3倍至120万张[61064]。昇腾已汇聚400万开发者、3000多家合作伙伴,是唯一在万卡集群层面与NVIDIA正面竞争的国产方案[61065]。2026年Q1发布的昇腾950PR处理器标志着下一代推理算力进入商用阶段[61069]

  • 寒武纪的盈利拐点:2025年全年营收64.97亿元,同比增长453.21%,实现上市以来首次年度盈利[61086]。2026年Q1营收28.85亿元,净利润10.13亿元,同比增长185.04%[61340]。思元590芯片在大模型训练场景的规模化落地是核心驱动力。

  • 平头哥的”隐形冠军”姿态:累计交付56万片(截至2026年5月),年化营收超百亿规模,外部客户400+家,外部客户占比60%以上[61243]。真武810E性能对标英伟达H20,已在阿里云实现万卡规模部署[61244]

  • DSA出货占比持续提升:高盛预测全球AI服务器中DSA架构AI芯片出货占比将从2024年的36%攀升至2027年的45%[63096]。这为DSA路线提供了长期的增量市场空间。

警示信号

  • 燧原科技的”All In推理”教训:2025年燧原科技训推一体产品收入占比仅1.15%,绝大部分收入来自推理产品[62718]。这意味着燧原在训练市场几乎缺位,而训练市场才是技术壁垒最高的赛道。2025年7月发布的L600训推一体芯片试图回调,但能否在训练市场建立竞争力仍是未知数[62723]

  • 客户集中度极高:燧原科技2025年前三季度腾讯贡献57.28%收入[62628]。这种极端依赖意味着燧原的命脉被单一客户掌控,议价能力和抗风险能力都较弱。

  • 生态封闭性导致迁移成本高:华为CANN/MindSpore生态与PyTorch的适配存在摩擦和性能损耗[62541]。开发者从CUDA迁移到昇腾的平均耗时被报告为”数周至数月”,而迁移到摩尔线程MUSA或沐曦MXMACA则可能缩短到”数天至数周”。

  • 灵活性不足,新模型架构适配困难:DSA架构对Transformer模型的优化深度硬件化,当出现新的模型架构(如Mamba、RWKV等非Transformer架构)时,适配难度远大于通用GPU。含光800对CNN的极致优化在Transformer时代几乎”报废”的教训值得警惕[62530]

8.4.3.3. 预判:✅ 推理场景确定性强,训练场景仅华为昇腾能打

有利因素

  • 能效比碾压:ASIC在特定AI负载上的能效比可达GPU的10倍以上。燧原S60推理卡在能效比上的优势使其在推理市场快速放量,截至2025年上半年已实现七万卡规模的部署应用[62719]
  • 推理市场爆发:随着大模型从训练走向推理部署,推理对算力的需求正在爆发。“训推分离”模式(训练用NVIDIA/昇腾,推理用国产中端芯片)正成为行业共识,为AI专用加速器打开了巨大的推理市场[62519]
  • 华为昇腾的生态壁垒:华为昇腾已形成”芯片→CANN→MindSpore→Atlas集群→超节点”的完整闭环,400万开发者、3000+合作伙伴,是唯一在万卡集群层面与NVIDIA正面竞争的国产方案[61065]
  • 软件栈深度正在追赶:寒武纪的NeuWare、平头哥的PPU软件栈都在快速迭代,虽然与CUDA的差距仍然明显,但针对主流大模型(Llama、Qwen、DeepSeek等)的适配已基本完成。

不利因素与风险

  • 生态封闭性导致迁移成本高:华为CANN/MindSpore生态与PyTorch的适配存在摩擦和性能损耗。开发者从CUDA迁移到昇腾的平均耗时被报告为”数周至数月”,而迁移到摩尔线程MUSA或沐曦MXMACA则可能缩短到”数天至数周”[62541]
  • 灵活性不足,新模型架构适配困难:DSA架构对Transformer模型的优化深度硬件化,当出现新的模型架构(如Mamba、RWKV等非Transformer架构)时,适配难度远大于通用GPU。
  • 无法切入图形渲染市场:数字孪生、工业仿真、云游戏、地理信息——这些场景需要图形渲染+AI的融合能力,AI专用加速器完全无法覆盖[62240]
  • 华为之外”赢者通吃”:AI专用加速器路线存在严重的”头部集中”效应——华为昇腾凭借全栈能力和规模效应,正在虹吸开发者、客户和生态资源,第二梯队的寒武纪、燧原、昆仑芯面临”做不大、做不强”的困境。

预判结论

AI专用加速器路线在 推理场景 上确定性最强,在 训练场景 上仅华为昇腾具备真正的竞争力。未来3-5年,这条路线内部将出现剧烈分化:华为昇腾作为”唯一全栈平台”继续扩大领先优势;寒武纪凭借思元系列的持续迭代和盈利拐点,有望在训练市场占据第二位置;平头哥依托阿里云的内部需求,在推理市场自成一体;燧原科技和昆仑芯则需要在”大客户依赖”和”生态封闭”的双重困境中寻找突破口。

核心判断:AI专用加速器路线的最大风险不是技术,而是 市场天花板。当一个市场被华为昇腾(训练+推理)和平头哥(推理)两大巨头瓜分后,留给其他专用加速器厂商的空间已经非常有限。DSA路线的”效率优势”在华为的规模效应面前,可能被大幅稀释。燧原科技2025年训推一体产品仅占1.15%的极端案例,就是这一困境的缩影——“All In推理”看似务实,实则放弃了技术壁垒最高的训练市场,长期竞争力堪忧[62718]

8.4.4. 路线三:CUDA兼容路线——“最聪明的妥协,也是最危险的赌注”

8.4.4.1. 路线逻辑

CUDA兼容路线的核心逻辑是:“既然CUDA生态已经统治了AI开发者的心智和代码库,与其重新发明轮子,不如让轮子能在我们的车上跑。” 这本质上是一种”搭便车”策略——通过在API层面兼容CUDA,让开发者用最小的迁移成本把NVIDIA上的代码跑在国产芯片上。

国产厂商的CUDA兼容策略分为三种[62982]

策略方式代表厂商法律风险性能损失
源码重新编译提供工具将CUDA源码重新编译到自研平台摩尔线程(MUSIFY)、沐曦(MXMACA)、壁仞(BIRENSUPA)🟡 较低10-30%
二进制翻译/转译运行时直接翻译CUDA二进制ZLUDA类方案🔴 高35-50%
自主架构不兼容全自研,不依赖CUDA华为昇腾、寒武纪、燧原🟢 极低0%(但需重写代码)

8.4.4.2. 最新进展与关键信号

正面信号

  • 摩尔线程MUSIFY不涉及EULA条款:摩尔线程明确声明MUSA/MUSIFY不涉及英伟达EULA相关条款,开发者可放心使用[62981]。这是因为MUSIFY走的是源码重新编译路线,而非二进制翻译。

  • 中国市场监管总局对英伟达反垄断调查:2025年12月,中国市场监管总局宣布英伟达违反中国反垄断法,可能面临上一年度营收1%-10%的罚款[62931]。这一调查显著削弱了英伟达在中国境内执行CUDA EULA的法律基础,为CUDA兼容路线提供了”保护伞”。

  • 商业验证已有数据支撑:摩尔线程2026年Q1营收7.38亿元并实现盈利,沐曦2025年营收15-19.8亿元,壁仞科技2026年1月港股上市——三家CUDA兼容路线的核心厂商均已越过”商业化验证”的门槛[61378]

  • 沐曦MXMACA兼容6000+ CUDA应用:沐曦MXMACA号称兼容6000+ CUDA应用和1000+模型原生适配,已与华为欧拉、麒麟OS、openKylin等国产操作系统完成适配[62980]

警示信号

  • 英伟达EULA禁令的威慑效应:英伟达在CUDA 11.6版本中明确禁止”对使用SDK元素生成的任何输出部分进行逆向工程、反编译或拆解,以将此类输出工件转换为目标非NVIDIA平台”[62457]。虽然源码重新编译路线不直接触发这一禁令,但法律风险的不确定性仍然存在。

  • ZLUDA项目的命运是前车之鉴:AMD曾资助ZLUDA项目(CUDA二进制翻译到ROCm),但在2024年因法律风险要求开发者删除代码[62736]。这表明即使是国际大厂,在CUDA兼容问题上面临的法律压力也是巨大的。

  • “兼容”不等于”等同”:即使API兼容,实际性能差异、隐蔽bug和优化成本仍是重大障碍。天数智芯通过DeepLink中间件将CUDA Kernel自动转译,性能损失高达35%-50%[62688]。这意味着在高端训练场景,CUDA兼容路线可能永远追不上NVIDIA的”原生性能”。

  • 策略本身的”天花板”:CUDA兼容路线本质上是”跟随策略”——当NVIDIA推出新特性(如Blackwell的FP4 Tensor Core、NVLink 5.0),兼容厂商需要时间追赶。永远落后一代,是这个策略的宿命。

8.4.4.3. 预判:✅ 中期最优策略,但长期面临”夹心层”困境

有利因素

  • 迁移成本最低,客户接受度最高:摩尔线程MUSIFY工具可实现CUDA代码”零成本迁移”到MUSA平台,MUSA SDK 4.0.1已支持Intel、ARM、海光、龙芯、麒麟等多种CPU平台[62199]。沐曦MXMACA号称兼容6000+ CUDA应用和1000+模型原生适配[62980]
  • EULA法律风险可控:源码重新编译路线(MUSIFY、MXMACA)不触发英伟达EULA的逆向工程禁令,与ZLUDA类的二进制翻译有本质区别[62981]。加上2025年9月中国市场监管总局对英伟达的反垄断调查,英伟达在中国境内执行EULA的法律基础被进一步削弱[62931]
  • 商业验证已有数据支撑:摩尔线程2026年Q1实现盈利,沐曦2025年营收15-19.8亿元,壁仞科技港股上市——三家核心厂商均已越过”商业化验证”的门槛[61378]
  • 被列入实体清单的厂商反而获得”安全屏障”:一旦被列入实体清单,厂商无法使用新版CUDA SDK,只能使用旧版本或开源替代方案[62486]。但讽刺的是,这也意味着它们不再受新版CUDA EULA的约束——制裁反而为CUDA兼容策略提供了某种”法律豁免”

不利因素与风险

  • 专利壁垒的”达摩克利斯之剑”:英伟达拥有约17,324件全球专利,覆盖GPU架构、Tensor Core、CUDA软件框架、多GPU互联等全栈技术[62951]。虽然早期CUDA专利(2005-2010年申请)已开始进入到期窗口,但英伟达通过延续申请(CIP)策略持续延长核心技术的有效保护期[62965]。一旦中美科技对抗升级,英伟达可能将专利诉讼作为武器。
  • “兼容”不等于”等同”:即使API兼容,实际性能差异、隐蔽bug和优化成本仍是重大障碍。天数智芯通过DeepLink中间件将CUDA Kernel自动转译,性能损失高达35%-50%[62688]。这意味着在高端训练场景,CUDA兼容路线可能永远追不上NVIDIA的”原生性能”。
  • 策略本身的”天花板”:CUDA兼容路线本质上是”跟随策略”——当NVIDIA推出新特性(如Blackwell的FP4 Tensor Core、NVLink 5.0),兼容厂商需要时间追赶。永远落后一代,是这个策略的宿命。
  • “不兼容”反而可能成为壁垒:华为昇腾的全自研路线虽然迁移成本高,但一旦开发者在昇腾生态上完成适配,迁移回NVIDIA的成本同样很高。这意味着昇腾的客户粘性可能比CUDA兼容厂商更强——“绑住客户”比”讨好客户”更持久

预判结论

CUDA兼容路线是 未来3-5年内最务实、最有效的商业策略,但也是 长期最有风险的路线。它在中期(3-5年内)将帮助国产GPU厂商以最低成本获取客户和市场份额,但在长期(5-10年),随着CUDA生态的持续演进和英伟达专利武器化风险的上升,这一策略的可持续性存疑。

关键判断:真正的胜负手不在于”是否兼容CUDA”,而在于 能否在兼容的同时,建立起自己不可替代的护城河。摩尔线程正在通过”全功能GPU+万卡集群+自有MUSA生态”构建差异化壁垒;沐曦则通过”训推一体+国产供应链”走差异化路线。纯靠CUDA兼容而没有自己独特价值的厂商,将被淘汰。

8.4.5. 路线四:RISC-V GPU IP——“开源理想与商业现实的拉锯”

8.4.5.1. 路线逻辑

RISC-V GPU IP路线的核心逻辑是:利用开源RISC-V指令集作为GPU的控制核心,绕开ARM/x86的授权费和地缘政治风险,同时通过自研GPU着色器核心实现图形渲染能力。这条路线的底层叙事是”全自主可控+免授权费+开源生态”。

8.4.5.2. 最新进展与关键信号

正面信号

  • 芯动科技风华3号的技术验证:风华3号是全球首款将RISC-V CPU与CUDA兼容GPU深度融合的芯片,集成北京开源芯片研究院”南湖V3”RISC-V核,从IP集成到仿真验证仅用2个月,FP32算力78 TFLOPS,支持DX12/Vulkan/光线追踪[62873]。这证明了RISC-V+GPU在技术上是完全可行的。

  • 芯原Vitality GPU IP支持DX12:芯原2024年12月推出的Vitality架构GPU IP支持DirectX 12 API,可配置Tensor Core AI加速器,面向云游戏/AI PC/独立显卡/集成显卡场景[62898]。这为RISC-V+GPU的IP组合方案提供了技术基础。

  • NVIDIA已宣布将CUDA移植至RISC-V(2025年7月),验证了RISC-V在高性能计算领域的长期可行性[62315]

  • 政策东风强劲:2025年3月,据路透社报道,中国计划发布政策鼓励全国范围内使用RISC-V芯片,政府机构草案要求所有新国产IoT芯片在2027年前采用RISC-V ISA[62218]。上海等地也加码RISC-V开源生态建设[62306]

  • 香山IP核已实现量产交付:2025年RISC-V中国峰会期间,北京开源芯片研究院宣布第三代”香山”(昆明湖)IP核已实现首批量产客户的产品级交付[62298]

警示信号

  • RISC-V是控制CPU,GPU核心仍是私有架构:风华3号中RISC-V”南湖”核负责计算数据调度、跨芯片通讯、启动控制、功耗管理等协控职能,GPU的图形渲染核心和AI计算核心并非RISC-V架构[62889]。这与”纯RISC-V GPU”是两个完全不同的概念。

  • 芯原收购芯来失败:2025年12月,芯原宣布终止收购芯来科技(国内领先RISC-V CPU IP企业),原因是”标的公司管理层及交易对方提出的核心诉求与市场环境、政策要求及公司和全体股东利益存在偏差”[62990]。这意味着RISC-V CPU IP + GPU IP的深度整合缺少了一个关键环节。

  • 软件生态差距巨大:相比x86+Windows和ARM+Android的成熟生态,RISC-V桌面/图形软件栈仍在构建中。Imagination GPU IP目前是RISC-V桌面生态中”可点亮的唯一GPU IP选择”[62323]

  • 商业化路径不清晰:RISC-V GPU IP的商业模式是IP授权,这与自研芯片的商业模式完全不同。芯原的GPU IP授权业务虽然稳定(全球GPU IP市场占有率前三),但营收规模和增速远不及自研芯片厂商[62907]

8.4.5.3. 预判:⚠️ 长期方向正确,但短期内无法成为主流

有利因素

  • 政策东风强劲:中国计划发布政策鼓励全国使用RISC-V芯片,政府机构草案要求所有新国产IoT芯片在2027年前采用RISC-V ISA[62218]
  • 芯动科技风华3号的技术验证:证明了RISC-V+GPU在技术上是完全可行的[62873]
  • 芯原Vitality GPU IP支持DX12:为RISC-V+GPU的IP组合方案提供了技术基础[62898]
  • NVIDIA已宣布将CUDA移植至RISC-V(2025年7月),验证了RISC-V在高性能计算领域的长期可行性[62315]

不利因素与风险

  • RISC-V是控制CPU,GPU核心仍是私有架构:风华3号中RISC-V”南湖”核负责协控职能,GPU的图形渲染核心和AI计算核心并非RISC-V架构[62889]
  • 软件生态差距巨大:Imagination GPU IP目前是RISC-V桌面生态中”可点亮的唯一GPU IP选择”[62323]
  • 芯原收购芯来失败:RISC-V CPU IP + GPU IP的深度整合缺少了一个关键环节[62990]
  • 商业化路径不清晰:RISC-V GPU IP的商业模式天花板较低,且软件生态建设需要至少5-10年时间。

预判结论

RISC-V GPU IP路线是 长期最值得关注的技术方向,但 未来3-5年内不会成为主流商业路线。它的核心价值在于:为中国GPU产业提供了一条”全自主可控”的技术底座,在极端地缘政治情境下(如ARM/x86授权被完全切断)具有战略备份价值。但短期内,RISC-V GPU IP的商业模式天花板较低,且软件生态建设需要至少5-10年时间。

关键判断:RISC-V在GPU中的角色,未来3-5年内将局限于”协控CPU”,而非”着色器核心”。RISC-V GPU IP的真正价值在于:它让中国GPU厂商可以摆脱对ARM Mali/Imagination等第三方GPU IP的依赖,实现从CPU核到GPU核的”全栈自主”。但这更像是一个 战略保险 而非 商业武器

8.4.6. 路线交叉与融合:2025-2026年最新趋势

2025-2026年出现了一个值得关注的新趋势:路线之间的边界正在模糊化

趋势具体表现意义
全功能GPU+DSA融合摩尔线程”花港”架构同时推出”华山”(AI训推一体)和”庐山”(图形渲染)两条芯片路线[62512]用同一架构覆盖AI专用和图形专用,兼顾效率与通用性
GPGPU向全功能GPU靠拢壁仞BR20X”在保持训练领先优势的同时,精准卡位推理时代”[62405];天数智芯构建”训练+推理+端侧”全产品矩阵[62843]纯GPGPU路线空间被挤压,必须向两端延伸
DSA向训推一体回调燧原从”All In推理”→L600训推一体芯片[62723]训练市场是技术壁垒最高的赛道,完全放弃将丧失长期竞争力
RISC-V+GPU从IP走向芯片芯动科技风华3号集成RISC-V核并实现全功能GPU[62873]RISC-V不再只是”协控CPU”,而是与GPU深度融合
CUDA兼容从”借道”走向”自有生态”摩尔线程MUSA开发者大会2025召开,强调MUSA自有生态而非单纯兼容CUDA[62203]兼容是手段,自有生态才是目的

关键判断:路线融合意味着 “纯种”路线将越来越难以独立生存。未来3-5年能存活下来的厂商,大概率是那些”以某条路线为主、同时吸收其他路线优势”的”混血”选手。纯GPGPU(不升级全功能)、纯推理(不涉足训练)、纯图形(无AI能力)的厂商将面临严重的生存危机。

8.4.7. 各路线风险分层与投资启示

风险层级路线风险描述触发条件
🔴 高风险纯GPGPU(不升级全功能)夹在全功能GPU和AI专用加速器之间,差异化空间消失壁仞/天数未能通过BR20X/天垓Gen3证明训练+推理双线能力
🔴 高风险”All In推理”(放弃训练)放弃技术壁垒最高的赛道,长期竞争力堪忧燧原L600训推一体未能获得客户认可,训练市场彻底失守
🟡 中高风险纯CUDA兼容(无自研壁垒)长期不可持续,必须建立自有生态护城河英伟达专利诉讼或EULA执行力度加大
🟡 中风险纯图形GPU(无AI能力)信创+军用市场足以养活1-2家,但增长空间有限景嘉微/砺算科技未能拓展AI推理能力
🟢 低风险全功能GPU+自研生态场景覆盖最广,长期壁垒最高摩尔线程花港架构量产顺利,生态建设持续推进
🟢 低风险DSA+全栈生态(华为昇腾)规模效应已形成,生态壁垒高美国制裁进一步升级,影响先进制程供应

8.4.8. 综合判断与推演

8.4.8.1. 未来3-5年最可能的主导路线组合

“全功能GPU(AI训练推理+图形渲染)+ AI专用加速器(推理优化)+ CUDA兼容(迁移桥梁)” 三者将构成中国国产算力底座的主流技术路线组合,而非某一条路线”一统天下”。

具体而言:

  • 训练市场:华为昇腾(DSA全栈)主导,摩尔线程(全功能GPU)和寒武纪(DSA)紧随其后;
  • 推理市场:平头哥(推理专用)、燧原(DSA)、寒武纪(DSA)、瀚博(AI加速器)等各家瓜分,华为昇腾占据最大份额;
  • 图形渲染市场:摩尔线程和景嘉微主导,砺算科技和象帝先在小众市场生存;
  • IP授权市场:芯原股份(GPU IP + RISC-V平台)和芯动科技(RISC-V+GPU)各占一席之地。

8.4.8.2. 哪些路线可能失败/被边缘化?

路线失败风险逻辑
纯GPGPU(不升级全功能)🔴 高夹在全功能GPU和AI专用加速器之间,差异化空间消失
纯图形GPU(无AI能力)🟡 中信创+军用市场足以养活1-2家,但增长空间有限
纯CUDA兼容(无自研壁垒)🟡 中高长期不可持续,必须建立自有生态护城河
”All In推理”(放弃训练)🔴 高燧原2025年的实践已证明过于激进,已回调
RISC-V纯GPU着色器🟢 低(尚不存在)目前无人走此路线,风险不适用

8.4.8.3. 最值得持续跟踪的路线交叉点

  1. 摩尔线程的”花港”架构能否实现”AI+图形”的真正融合:2026年量产的”花港”架构号称算力密度提升50%、能效提升10倍、支持十万卡集群[62510]。如果兑现,它将是全功能GPU路线的最强实证。

  2. 华为昇腾的全自研生态能否实现”自我造血”:400万开发者、3000+合作伙伴已经形成一个足够大的生态,但关键在于:开发者使用昇腾是”主动选择”还是”被动接受”?如果是后者,一旦制裁放松,生态可能快速流失。

  3. 芯动科技风华3号的RISC-V+GPU方案能否规模量产:技术验证成功≠商业成功。风华3号的量产出货量和客户反馈将是判断RISC-V GPU IP路线可行性的关键数据点。

  4. 燧原科技的”训推一体回调”(L600)能否成功:从”All In推理”重新走向”训推一体”,L600的市场表现将决定燧原能否摆脱”大客户依赖”和”训练缺位”的双重困境。

  5. 壁仞BR20X能否在2026年实现”训练+推理”双线突破:BR100被制裁后,壁仞的技术路线调整是否成功,BR20X的客户反馈将是关键验证。


一句话总结:技术路线没有绝对的对错,只有”是否适合当下的市场”和”能否在窗口期内跑通商业闭环”。全功能GPU路线最像NVIDIA的成功路径,但最难走;AI专用加速器路线效率最高,但天花板最明显;CUDA兼容路线最聪明,但最不可持续;RISC-V GPU IP路线最”政治正确”,但离商业化最远。未来3-5年,赢家不是”选择正确路线”的厂商,而是”能在所选路线上率先实现盈利和自我造血”的厂商。

8.5. 国产统一生态的可能性

判断能否形成类似CUDA的稳固生态,或长期处于多平台割据状态

核心判断:短期(3‑5 年)内出现类似 CUDA 的单一垄断性生态的概率极低。更可能出现的是“分层统一”——底层运行时接口趋同、上层框架与芯片解耦的中间件层出现、各厂商自有生态在兼容层之上并存。FlagOS 和华为 CANN 开源是两条最有希望的“凝结核”路径,但能否真正统一生态,取决于华为是否愿意放弃 CANN 的排他性,以及互联网大厂是否愿意为统一中间层买单。


8.5.1. 当前生态碎片化全景:一地鸡毛还是百花齐放?

截至 2026 年中,中国国产 GPU/AI 加速器赛道已形成 至少 8 套互不兼容的主力软件栈。每一套软件栈都对应着独特的硬件架构,从 NPU 到 GPGPU,从 SIMD 到 SIMT,从授权指令集到自研指令集——软件栈碎片化首先是硬件碎片化的投影。[63525]

厂商软件栈名称底层架构是否开源对标/兼容对象CUDA 迁移方式
华为昇腾CANN达芬奇 NPU → 转向 GPGPU2025.8 全面开源自研,对标 CUDA框架层兼容 PyTorch/TF
寒武纪NeuWareMLU 专用架构部分开源(AI编译器)自研指令转译(15‑20%性能损耗)[63560]
海光 DCUDTKAMD CDNA 授权 + ROCm开源基础(ROCm)ROCm/CUDAHIP 转译(迁移成本最低,~15人天)[63427]
摩尔线程MUSA自研全功能 GPU大部分闭源(仅3个开源库)[63502]CUDAMUSIFY 工具自动转换
壁仞科技BIRENSUPA自研 GPGPU闭源[63504]CUDA兼容头文件 biren_cuda.h[63213]
沐曦MXMACA自研 GPU IP未完全开源CUDA兼容 CUDA 生态,6000+应用适配[63216]
燧原科技驭算/TopsCC自研架构闭源独立生态不追求 100% 兼容 CUDA[63233]
天数智芯DeepLink自研 GPGPU开源社区CUDA/OpenCL中间件自动转译(性能损失35‑50%)[63207]

这些软件栈的差异不是“换皮”级别——它们反映的是底层硬件架构的根本性差异。正如业内所感叹:“海光有 DCU,摩尔线程有 MUSA,壁仞有 BIRENSUPA……每一家都有一套自己的编程模型。对于下游软件开发商来说,适配这七八套系统简直是噩梦。”[63414] 更棘手的是,各家的开源自研比例极低:摩尔线程在 GitHub 仅公开 3 个库,壁仞的 BIRENSUPA 同样闭源,生态构建完全依赖厂商自身资源,难以形成社区合力。[63222]

架构师注:打个比方,现在的情况不是“八家汽车厂各自造了不同的方向盘”,而是“八家厂分别造了燃油车、电动车、氢能车、摩托车、拖拉机,然后各自宣称自己的驾驶舱操作规程才是行业标准”。统一的前提是大家都决定造“汽车”——但这个前提目前就不成立。


8.5.2. 三股力量推动统一

尽管碎片化严重,但 2024‑2026 年间出现了三股推动统一的重要力量:

8.5.2.1. 力量一:众智 FlagOS——最接近“中国版 CUDA 中间层”的开源方案

FlagOS 由北京智源人工智能研究院牵头研发,定位为 面向多种 AI 芯片的统一开源系统软件栈。截至 2026 年 3 月发布的 FlagOS 2.0,已实现对 18 家厂商、32 款 AI 芯片 的全场景支持,覆盖从大模型训推到具身智能与科学计算 [63555]

FlagOS 的核心组件包括:

  • FlagScale:并行训推一体框架,2026 年 3 月已完成沐曦、摩尔线程等六家厂商 AI 芯片、三种大模型(语言、多模态、具身)、五个同构+异构千卡集群的端到端训练验证 [63552]
  • FlagCX:统一通信库,已实现国家与国际标准“双立项”,支持 9 种主流 AI 芯片(英伟达、寒武纪、昆仑芯、摩尔线程、海光、华为昇腾等)[63544]
  • FlagAttention / FlagGems:高性能算子库

寒武纪于 2025 年 9 月全面完成对 FlagOS 全栈组件的适配与优化 [63541],清微智能、昆仑芯、摩尔线程、华为昇腾、海光均被列为“FlagOS 卓越适配单位”[63543]

架构师判断:FlagOS 是目前最接近“统一中间层”的实践。它的核心价值不是替代各家软件栈,而是提供一层“翻译层”——让上层应用(PyTorch 模型)通过 FlagOS 调度到底层不同芯片,类似于 LLVM 在编译器领域的角色。但 FlagOS 面临的核心挑战是:性能损失能否控制在可接受范围,以及 互联网大厂是否愿意在生产环境中使用这个中间层而不是直接对接芯片原生 SDK

8.5.2.2. 力量二:华为 CANN 开源——“成为英伟达”的野心与“成为标准”的可能性

2025 年 8 月 5 日,华为轮值董事长徐直军在昇腾计算产业发展峰会上宣布 CANN 全面开源开放,Mind 系列应用使能套件及工具链同步开源 [63445]。这是华为昇腾生态从“封闭自建”到“开放竞争”的战略转折。

CANN 开源有几个关键背景:

  • 昇腾 NPU 面临“改道 GPGPU”的传闻和压力——纯 NPU 架构在 PyTorch 兼容性上天然吃亏 [63446]
  • 其他国产厂商(摩尔线程、沐曦、壁仞)的 PyTorch 适配速度越来越快,华为的“生态独占”优势被稀释 [63513]
  • 华为需要开源来深化开发者对昇腾的依赖,维持“国产 AI 芯片寡头”地位 [63513]

寒武纪、摩尔线程等芯片厂商已宣布适配 CANN 架构,形成国产算力联盟 [63508]。这意味着 CANN 有潜力成为“国产 AI 芯片的公共编程框架”——就像 CUDA 之于英伟达生态,但 CANN 如果真正开放给第三方硬件,它可能成为比 CUDA 更开放的“行业标准”。

架构师注:CANN 开源的本质是华为的“生态防御战”——当其他厂商的 PyTorch 兼容性追上来时,华为需要让 CANN 成为“中国 AI 开发者默认安装的那个东西”。但问题是,华为是否愿意让 CANN 在友商硬件上跑得和昇腾一样好?如果答案是否定的,那 CANN 开源就只是“展示诚意”而非“真的开放”。目前 CANN 并没有兼容其他厂商硬件的明确计划,生态封闭性依然很强。[63247]

8.5.2.3. 力量三:行业联盟与标准制定

多个行业组织正在从标准层面推动统一:

组织/联盟核心工作进展
中国 GPU 软件栈联盟(CGSA)联合定义《国产 GPU 统一运行时接口规范 V1.0》草案,覆盖 Device Management、Memory Pool、Async Stream 等 12 类核心 API草案阶段,摩尔线程、壁仞、寒武纪等已加入 [63307]
全球计算联盟(GCC)发布《异构算力协同白皮书》,聚焦统一计算、统一通信、统一调度、统一评测四大体系 [63384]2025年8月发布,中国电信、信通院、智源联合牵头
海光 HSL 1.0互联规范,提供从总线协议、IP 设计到指令集的全栈定义,实现海光 CPU 与多元 AI 芯片紧耦合互联 [63496]已发布,面向产业链开放
中国异构计算联盟(CHCC)提出统一编程标准提案 [63204]尚在提案阶段

8.5.3. 四股力量阻碍统一

与推动统一的力量相比,阻碍统一的力量同样强大——甚至更强:

8.5.3.1. 阻碍一:硬件架构的“基因级”差异

NPU(昇腾、寒武纪)、GPGPU(壁仞、天数智芯)、全功能 GPU(摩尔线程、砺算)、ROCm 兼容(海光)——这些芯片的底层指令集、计算单元设计、内存模型、互联协议完全不同。软件栈统一的前提是硬件抽象层的统一,而硬件抽象层的统一要求所有芯片都收敛到相似的架构范式。 这在 3‑5 年内几乎不可能。[63525]

打个比方:你可以给燃油车、电动车、氢能车制定统一的“驾驶执照考试标准”,但你不能要求三家车厂共用同一套发动机控制软件。运行时接口可以统一,但底层编译器、算子库、通信库的优化永远需要针对特定硬件。

8.5.3.2. 阻碍二:每个厂商的“CUDA 兼容”策略本身就是护城河

摩尔线程的 MUSA 兼容 CUDA C++ 核心语义,语法级兼容 Triton 语言;沐曦的 MXMACA 兼容 6000+ CUDA 应用;壁仞的 BIRENSUPA 提供 biren_cuda.h 头文件直接映射 CUDA API [63213]

这些“兼容 CUDA”的策略本质上都在说同一句话:“你可以不学我的东西,直接用你熟悉的 CUDA 代码跑。” 如果所有厂商都兼容 CUDA,那它们之间天然就形成了某种“公约数”——CUDA API 本身就成了事实上的统一接口。但问题在于,每家厂商的兼容度不同(60%‑95%不等),而且英伟达 2024 年已明确禁止在非英伟达 GPU 上通过转译层运行 CUDA 软件 [63205]。兼容 CUDA 本身需要巨大投入,涉及 50 个驱动、50 个编译器、50 个数学库、300 个应用层工程师,持续 3‑5 年 [63410]

架构师注:这就是国产 GPU 最讽刺的处境——它们都在追赶 CUDA,但 CUDA 是被法律保护、禁止第三方兼容的。如果有一天英伟达加大法律执行力度,那些“高度兼容 CUDA”的厂商反而会成为最脆弱的靶子。

8.5.3.3. 阻碍三:大厂自研芯片的“生态虹吸”效应

百度昆仑芯、阿里平头哥真武、字节跳动 SeedChip——这些互联网大厂的自研芯片只服务于自己的 AI 业务,没有动力去适配第三方软件栈。它们的生态是“封闭内循环”——昆仑芯 + 飞桨 / 真武 + 阿里云 / SeedChip + 字节内部框架。这些芯片的出货量不容小觑,但它们既不参与统一生态建设,也不对外开放接口,实质上是“生态割据的加速器”。[63510]

8.5.3.4. 阻碍四:商业竞争逻辑——“谁先统一,谁就被统一”

这是最根本的阻碍。CUDA 之所以能统一英伟达生态,是因为英伟达是唯一的硬件供应商——CUDA 的“统一”是 公司内部的统一,不是竞品之间的妥协。

而国产 GPU 赛道中,华为昇腾占据约 50% 市场份额(Bernstein 预测 2026 年本土市占率 80% 中华为占 50%)[63498],它是唯一可能“像英伟达一样统一生态”的玩家。但如果华为的 CANN 成为行业标准,其他厂商(摩尔线程、壁仞、沐曦)就变成了“在华为平台上跑的二等公民”——它们怎么可能自愿接受?

正如一位业内人士的犀利总结:

“要么几个头部(昇腾 + 壁仞 + 沐曦之类)搞一个‘统一上层 API’,要么大家继续各自为战。但前者的问题是——谁主导?谁收钱?谁说了算?这比统一硬件架构还难。” [63318]


8.5.4. 最可能出现的三种场景

基于以上分析,我们推演未来 3‑5 年国产 GPU 生态格局的三种可能场景:

8.5.4.1. 场景 A:「分层统一」(概率:55%)

这是最可能出现的场景。不同层级形成不同程度的统一:

层级统一程度主导力量
应用层(PyTorch/TensorFlow)✅ 天然统一开源社区
中间件/调度层(FlagOS)🟡 逐步统一智源 + 政府 + 大厂联盟
运行时 API(CGSA 规范)🟡 接口趋同行业联盟 + 工信部
编译器/算子库❌ 各自为战各厂商
硬件指令集/架构❌ 永远不同各厂商

在这种场景下,开发者使用 PyTorch → FlagOS 统一调度 → 各厂商原生 SDK 执行,类似于 Android 的“统一应用层 + 各厂商 HAL 层”的架构。FlagOS 和 CGSA 规范是关键的“胶水层”。

优势:不需要厂商放弃竞争优势,兼容现有生态,渐进式推进。 风险:中间层性能损失,互联网大厂可能跳过中间层直接对接原生 SDK。

8.5.4.2. 场景 B:「华为 CANN 一统天下」(概率:25%)

如果华为昇腾的市场份额持续扩大(到 2028 年超过 60%),且 CANN 开源后质量和生态建设远超竞品,CANN 可能成为事实上的“国产 AI 芯片标准”。

关键触发条件:

  • 昇腾 950/960/970 系列代际性能持续领先
  • CANN 开源社区活跃度超过 5000 贡献者
  • 至少 3 家其他国产芯片厂商正式加入 CANN 生态
  • 政府智算中心采购明确要求“支持 CANN 标准”

但华为面临一个根本性矛盾:如果 CANN 在友商硬件上跑得和昇腾一样好,那昇腾硬件的优势何在?如果跑得不好,那友商为什么要加入 CANN 生态?这个“既当裁判员又当运动员”的困境,决定了 CANN 很难成为真正中立的“行业标准”。

8.5.4.3. 场景 C:「持续割据,多平台并存」(概率:20%)

如果 FlagOS 推进缓慢、CANN 开源后社区活跃度不及预期、各厂商继续各自为战,那么“多平台割据”将成为长期状态——每家厂商都维持一个“小而美”的生态,开发者和 ISV 需要适配 3‑5 套软件栈,迁移成本居高不下。

这种场景下,市场会通过“残酷的客户选择”来实现事实上的统一——客户只会选择 1‑2 家生态最好的厂商,其余厂商自然淘汰。这不是“联盟统一”,而是“市场统一”。


8.5.5. 与 CUDA 生态统一路径的本质差异

必须清醒认识到:CUDA 的“统一生态”是英伟达一家公司内部的产品决策,而中国 GPU 生态的“统一”是十几家竞争关系的公司之间的协调博弈。 两者的难度不在一个数量级上。

维度CUDA 统一路径国产 GPU 统一路径
决策主体英伟达一家公司十几家竞争公司 + 政府 + 行业联盟
硬件架构统一(英伟达 GPU)碎片化(NPU/GPGPU/全功能GPU)
资金来源英伟达统一投入各自融资,各自投入
时间积累2006年至今,19年起步于2018‑2022年,3‑8年
开发者规模500万+ [63300]不足10万(国产 GPU 开发者)[63362]
法律风险无(自有生态)兼容 CUDA 面临法律风险 [63205]

架构师注:业内常说的“打造中国版 CUDA”是一个危险的口号——它暗示只需要复制 CUDA 的技术栈,却忽略了 CUDA 的成功建立在“一家公司控制所有硬件”的前提之上。国产 GPU 的生态统一,更恰当的类比是“在没有微软的情况下让 Linux 发行版们统一包管理格式”——技术上是可行的,商业上是困难的。


8.5.6. 结论:割据是常态,统一是渐变

长期割据(5年以上)是大概率事件,但“割据”不等于“混乱”。

更精确的判断是:

  1. 不会出现“中国的 CUDA”——没有一家公司能像英伟达那样同时控制硬件和软件生态,华为昇腾是最接近的,但市场份额还远未达到垄断级别。

  2. 会出现“中国的 DirectX/OpenCL”——即一套跨厂商的统一 API 规范(CGSA 运行时接口 + FlagOS 中间件),让开发者在应用层无需关心底层硬件。但性能优化仍需针对特定硬件。

  3. “兼容 CUDA”将长期是事实标准——因为所有厂商都在兼容 CUDA,CUDA API 本身就成了“公约数”。这类似于 Linux 生态中 gcc 虽然不是标准委员会制定的,但它是事实上的标准编译器。

  4. 市场淘汰赛将自然减少生态碎片化——当行业从 20+ 家厂商收敛到 3‑5 家时,生态碎片化自然减轻。这不是“统一”的结果,而是“幸存者偏差”的结果。

  5. 华为 CANN 和 FlagOS 的竞合关系值得关注——如果 CANN 成为昇腾专用、FlagOS 成为跨厂商通用,两者形成“底层实现 + 上层抽象”的分工,那将是最理想的结果。但如果两者直接竞争,统一进程将更加漫长。

最终判断:别指望国产 GPU 生态会像 CUDA 那样“大一统”——这既不现实,也没必要。真正的目标是:让 PyTorch 模型在国产 GPU 上运行时,开发者不需要关心底层是哪家芯片。 这个目标在 2028 年前通过 FlagOS + CGSA + 各厂商原生适配的组合拳,是有可能实现的。但“统一”的不是生态,而是“接口”——生态永远是多元的,接口才是可以标准化的。

8.6. 智算中心需求对厂商的支撑力

分析当前智算中心国产化率、采购规模能否养活众多厂商

如果把国产GPU/AI芯片厂商比作围坐在一张餐桌旁的食客,那么智算中心就是这张桌子上最大的那张饼。问题是:这张饼到底有多大?桌上坐了多少人?每个人能分到多少?够不够吃?

本节用公开数据做一道冷冰冰的算术题。


8.6.1. 饼有多大:2025年中国AI芯片市场的真实规模

不同机构对“中国AI芯片市场”的口径不一,需要先厘清数字:

数据来源口径2025年规模说明
Bernstein ResearchAI加速器销售额约260亿美元(~1900亿元)按销售额计,华为103亿美元,英伟达102亿美元 [1]
IDCAI加速卡出货量约400万张国产165万张(41%),英伟达220万张(55%)[2]
中商产业研究院中国智算中心市场1356亿元含土建、机电、IT设备等全口径 [3]
弗若斯特沙利文中国AI芯片市场1425亿元(2024)→ 预测2029年1.34万亿元含云端+边缘+终端 [4]
IDC中国AI加速服务器2025H1达160亿美元同比翻倍 [5]
中国工业互联网研究院工业智算市场632亿元(2025)仅工业领域 [6]
行业综合估算中国AI芯片采购总金额约2760亿元(380亿美元)含国内外所有芯片 [7]

关键结论:2025年中国AI芯片的有效市场规模(仅芯片采购,不含土建/服务器整机/运维)约在 2500-2800亿元人民币。其中,国产厂商能拿到的份额约为 1160亿元(160亿美元)[8]


8.6.2. 谁在吃饼:国产厂商的“分饼”格局

这张1160亿元的国产“饼”,分配结构极度不均:

厂商2025年AI芯片销售额(估算)占国产份额占总量数据来源
华为昇腾~750亿元(103亿美元)~64%~27%Bernstein [1]
寒武纪~73亿元(10亿美元)~6%~2.6%Bernstein [1],2025全年营收约64亿元 [9]
海光信息~81亿元(11.2亿美元)~7%~2.9%Bernstein [1]
阿里平头哥~50-60亿元(估)~4-5%~2%2024出货26.5万张推算 [10]
百度昆仑芯~50亿元(2025年预计)~4%~1.8%公开报道 [11]
“GPU四小龙”合计~52亿元~4.5%~1.9%各自年报 [12]
其中:摩尔线程~15亿元[12]
其中:沐曦股份~16亿元[13]
其中:壁仞科技~10亿元[14]
其中:天数智芯~10亿元[15]
燧原科技~10亿元~0.9%~0.4%[9]
其余10+家厂商~30-50亿元(估)~3-4%~1%含景嘉微、瀚博、登临等

一个残酷的集中度事实:华为昇腾一家吃掉国产份额的64% [1]。前5大(华为+寒武纪+海光+平头哥+昆仑芯)合计吃掉了约85%。剩下的~15%(约175亿元)由”GPU四小龙”、燧原、景嘉微、瀚博、登临、芯动、砺算、象帝先、芯瞳等 十余家甚至更多 厂商分食 [16]


8.6.3. 每人需要吃多少:GPU厂商的生存线

GPU芯片公司的”生存算术”极为残酷:

关键指标典型数值说明
年研发投入10-15亿元摩尔线程2022-2024三年研发38.1亿元 [17];壁仞三年27.3亿元 [18];沐曦三年22.5亿元 [19]
年经营费用(含研发)15-20亿元含研发、销售、管理
盈亏平衡所需营收20-30亿元摩尔线程预计2027年实现盈利 [20];沐曦预计2026年盈亏平衡 [20]
毛利率50-65%摩尔线程66%,沐曦53% [21]
“烧钱续命”所需现金储备50亿元+摩尔线程IPO募资80亿元 [22];沐曦IPO后可用资金72.9亿元 [23]

做一个简单的算术:

  • 一家GPU公司年烧15亿元,如果营收只有5亿元且毛利率50%,每年净亏损约12.5亿元
  • 50亿元现金储备够烧 4年
  • 4年内如果营收不能突破25亿元,要么继续融资,要么出局

现实是:2025年”GPU四小龙”各自的营收在10-16亿元,全部距离盈亏平衡线还有相当距离 [12]


8.6.4. 饼够不够:供需匹配的核心矛盾

现在把”饼”和”吃饼的人”放在一起看:

维度数据含义
国产AI芯片可触达市场规模(2025)~1160亿元国产厂商能拿到的总量
华为一家拿走~750亿元(64%)华为内部采购+政企+运营商
前5大拿走~985亿元(85%)华为+寒武纪+海光+平头哥+昆仑芯
剩余给10+家中小厂商~175亿元15%的残羹
每家中小厂商盈亏平衡线20-30亿元不含华为系
理论上能养活的”非华为”厂商数量6-9家前提:每家都达到盈亏平衡
实际仍在活跃的”非华为”厂商数量15-20家+深芯盟统计70余家国产芯片厂商 [24]

结论:当前市场能养活的”非华为系”独立GPU/AI芯片厂商不会超过10家,且前提是每家都恰好达到盈亏平衡线。 现实是,2025年”GPU四小龙”合计营收仅52亿元,平均每家13亿元,全部在亏损 [12]


8.6.5. 变量一:政策国产化率——饼在”强制做大”

但故事并未结束,因为政策正在”强制把饼做大”:

地区国产化率要求时间节点来源
上海自主可控算力占比超70%2027年[25]
北京100%自主可控智算中心建设能力2027年[26]
广东新增国产化算力占比70%2027年底[27]
国资委”79号文”央国企核心业务系统全面信创替代2027年[28]
科技部政策公共算力平台国产芯片算力≥60%,国产框架使用率≥60%已在执行[29]

这意味着什么?做一个推演:

  • 2025年中国AI加速卡总出货约400万张,国产份额41%(165万张)[2]
  • 如果2027年国产化率提升至70%,且总出货量增长至600万张(假设),国产出货量将达到 420万张
  • 按每张国产AI加速卡均价8万元(寒武纪590约6-7万,华为910C约18万,综合取中低值),对应市场规模约 3360亿元
  • 即使华为仍占50%,留给非华为厂商的也有约 1680亿元

这意味着,到2027年,政策驱动的国产化率提升,理论上可以将”非华为”市场蛋糕从175亿元扩大到1500-1700亿元,足以支撑10-15家年营收20-30亿元的独立厂商。

但这里有一个关键前提:国产芯片真的能用起来。


8.6.6. 变量二:闲置率黑洞——饼大但吃不到嘴里

智算中心的”国产化率”目标不等于”国产芯片利用率”。这里存在一个极为尴尬的断层:

问题数据来源
智算中心平均利用率不足30%-45%[30]
部分国产芯片闲置率高达70%-80%[32]
核心原因生态不完善、软件不适配、测试数据不理想、企业”用不起来”[32]
2025Q1智算中心项目状态165个项目中仅16个投产/试运行,绝大多数在建或筹建[34]

一位业内人士直言:“由于生态还不完善,一些国产卡的测试数据并不理想,企业用不起来,闲置率可能高达70%-80%甚至更高” [32]

换言之,政策要求”买国产”,但买回去之后能不能用起来是另一回事。 如果国产芯片的”有效利用率”只有30%,那么即使政策把国产化率推到70%,实际产生的算力价值也只有21%。这将倒逼客户在”国产化率合规”和”真实算力需求”之间做出艰难选择——大概率是”买一部分国产交差,核心业务继续用英伟达”。


8.6.7. 变量三:市场增速——饼在变大,但够快吗?

预测指标2025年2029年(预测)CAGR来源
中国AI芯片市场规模1425亿元1.34万亿元53.7%弗若斯特沙利文 [4]
中国AI加速服务器380亿美元1400亿美元~39%IDC [35]
中国智算中心市场1356亿元未明确中商产业研究院 [3]
中国AI智算GPU996.72亿元10333.40亿元56.7%行业预测 [36]

如果市场真的以50%+的CAGR增长,到2029年达到1.34万亿元,那么即使华为拿走40%,留给非华为厂商的也有约 8000亿元——这足以养活几十家公司。

但问题在于:

  1. 这个预测可能过于乐观。 2025年已经出现了”通用算力过剩、智能算力短缺”的结构性矛盾 [37],以及”智算中心建好卖不掉”的运营困境 [38]
  2. 市场增速不等于利润增速。 激烈的价格竞争(寒武纪590已从8.5万元降至6-7万元 [39])可能压缩毛利率;
  3. 英伟达H200恢复供应(2026年初)可能重新抢占部分高端市场 [40]

8.6.8. 终极算术:智算中心到底能养活几家?

综合以上所有变量,我们做一个敏感性分析:

情景假设条件可养活的非华为GPU厂商数量
悲观情景市场增速放缓至20%,国产化率停滞在50%,闲置率居高不下,英伟达H200大规模回归3-5家
基准情景市场维持30-40% CAGR,国产化率稳步提升至70%,闲置率改善至50%,英伟达市场份额继续萎缩5-8家
乐观情景市场维持50%+ CAGR,国产化率推至90%,生态成熟,国产芯片”好用”成为共识8-12家

当前(2026年中)最接近基准情景。按照这个情景推演:

梯队厂商2029年预计营收(估)生存概率
第一梯队(必然存活)华为昇腾、海光DCU、寒武纪100-500亿元+>95%
第二梯队(大概率存活)昆仑芯、平头哥、摩尔线程、沐曦50-150亿元70-90%
第三梯队(有希望但需努力)壁仞科技、天数智芯、燧原科技30-80亿元50-70%
第四梯队(生死线挣扎)景嘉微(AI方向)、瀚博、登临、芯动10-30亿元20-40%
第五梯队(高危)砺算、象帝先、芯瞳、其他边缘厂商<10亿元<20%

核心判断:智算中心需求的大盘子,在3-5年内大概率只能支撑 5-8家 非华为系的国产GPU/AI芯片厂商实现规模化盈利。目前赛道上有20+家活跃玩家——这意味着至少一半以上将在淘汰赛中出局。


8.6.9. 一个更深层的结构性问题:客户结构决定了”谁能活”

智算中心的采购方可以分为三类,每一类决定了不同的”生存逻辑”:

客户类型采购逻辑受益厂商市场占比(估)
运营商(移动/电信/联通)国产化率优先,大厂集采模式华为昇腾、昆仑芯、寒武纪~35%
政府/国资智算中心国产化率+政策合规,华为生态主导华为昇腾、海光DCU~30%
互联网大厂(字节/阿里/腾讯等)性能优先+供应链安全,自研倾向明显平头哥(阿里自用)、昆仑芯(百度自用)、寒武纪、沐曦~25%
行业/企业自建性价比+应用适配,碎片化需求摩尔线程、天数智芯、燧原等~10%

数据的残酷性在于:运营商+政府占了约65%的采购量,而这两个市场的核心逻辑是”华为优先”。 中国移动2024年AI服务器集采191亿元,华为生态企业(昆仑技术、华鲲振宇、宝德等)合计中标超70% [41];中国移动2025-2026年推理型集采中,昆仑芯在三个标包全部排名第一,中标规模达十亿级 [42]

这意味着:如果你不是华为生态的一部分,也不是昆仑芯(百度),运营商和政府智算中心的大门基本关了一大半。 留给独立GPU创业公司的,主要是互联网大厂(25%)和行业企业(10%)的碎片化市场——合计约35%的份额,还要和英伟达竞争。


8.6.10. 小结:冷算术的结论

核心判断具体内容
市场总量够大2025年国产AI芯片市场~1160亿元,2029年可能达1.34万亿元
但集中度极高华为一家占64%,前5大占85%
剩余蛋糕不足以养活所有人非华为系厂商分食~175亿元,但盈亏平衡线是20-30亿元/家
政策在做大蛋糕2027年国产化率70%+的要求将显著扩大市场
但闲置率是”黑洞”卡买回去了用不起来,国产化率只是账面数字
最终能活下来的基准情景下5-8家非华为系厂商,乐观情景8-12家
淘汰赛已经开始20+家活跃厂商中,至少一半将出局

最后,一个值得深思的类比:全球GPU市场,真正赚大钱的只有英伟达一家(2025年数据中心收入超1000亿美元),AMD在苦苦追赶,Intel则基本退出。即便在一个万亿级市场,赢家通吃的规律依然成立。中国因为有政策保护、信创壁垒、国产替代刚需,可能会比全球市场多容纳几家——但不可能多容纳几十家。


8.7. 行业整合的底层逻辑

从资本、技术、客户、供应链四个维度推演整合路径

核心洞察:如果把国产GPU/AI加速器赛道比作一场”饥饿游戏”,资本是”粮草”、技术是”兵器”、客户是”阵地”、供应链是”后勤线”——2026年,当四维压力同时收紧,整合不再是”选项”,而是”宿命”。当前行业约20余家主流GPU/AI芯片设计企业中,3-5年后能够独立存活的很可能不超过5-7家。这不是危言耸听,而是全球半导体产业发展史的必然规律——GPU行业从来不是”百花齐放”的赛道,而是”赢家通吃”的寡头游戏。

8.7.1. 四维压力全景:为什么整合必然发生

在展开分析之前,先看一张”压力表”——四个维度各自施加的整合推力:

维度核心压力整合推力紧迫程度关键信号
资本上市窗口关闭+估值分化+盈利预期落空资本向头部集中,尾部”断粮”⭐⭐⭐⭐⭐2025-2026 Q1融资68起/270亿元,但集中于前5家
技术同质化竞争+路线收敛+软件生态壁垒技术路线”赢家通吃”,低效重复投入被淘汰⭐⭐⭐⭐全功能GPU vs AI ASIC路线已现分化
客户云厂自研芯片+迁移成本高+客户集中度高客户向”能用、好用、不贵”三家集中⭐⭐⭐⭐⭐华为昇腾占40%份额,互联网厂自研加速
供应链先进制程产能稀缺+地缘政治+晶圆涨价产能向出货量大的头部集中,小厂”无片可流”⭐⭐⭐⭐⭐中芯国际7nm产能被头部5家包圆

四维压力的叠加效应:单独看每个维度,头部厂商都还能勉力应付;但四个维度同时挤压时,尾部厂商面临的不是”选择性困难”,而是”系统性崩溃”——没钱流片→没产品→没客户→没收入→更没钱流片,这个死亡螺旋一旦启动,3-6个月内即可终结一家企业。

8.7.2. 资本维度:从”雨露均沾”到”旱涝分明”

8.7.2.1. 融资窗口正在关闭

2023-2025年是国产GPU的”融资黄金期”:全行业融资额超500亿元,头部企业单次融资规模突破50亿元[63975]。2025年底至2026年初,更是在一个多月内密集完成4家上市(摩尔线程科创板、沐曦科创板、壁仞科技港股、天数智芯港股),堪称”国产GPU上市闪电战”[63957]

但这恰恰是资本整合的起点而非终点。原因有三:

第一,IPO窗口具有时效性。摩尔线程上市首日涨幅425%,沐曦首日暴涨568%,壁仞科技港股首日涨幅75.82%——这些”首日神话”是建立在市场”AI算力稀缺标的”预期之上的[64048]。但随着供给增加(已上市6家+燧原科技IPO过会+昆仑芯冲刺港股+瀚博半导体辅导),“稀缺性溢价”正在消退。2026年5月,国产GPU相关上市公司市值已较峰值回调超35%[64019]

第二,上市不等于安全。摩尔线程2022-2024年累计亏损约52亿元,沐曦累计亏损32.9亿元,壁仞2025年上半年亏损16.01亿元,天数智芯三年半累亏28亿元[63984]。这些公司上市募资80亿元、42亿元、37亿港元不等,按当前烧钱速度,资金仅够支撑2-3年[64023]。如果2027年前无法实现规模化盈利,将面临二次融资压力——彼时市场情绪可能已大不相同。

第三,估值分化已经开始。上市前,摩尔线程估值255亿元、沐曦210亿元、壁仞140-155亿元、天数智芯120亿元[64002]。上市后,市值差距进一步拉大——摩尔线程峰值市值一度超4000亿元,而天数智芯港股上市时市值约354亿港元[64160]。这种分化意味着:头部企业可以用高估值”换股并购”吞并尾部企业,而尾部企业即使想融资也面临”估值倒挂”困境。

8.7.2.2. 资本整合的三种路径

整合路径典型案例核心逻辑预判概率
上市企业横向并购海光信息吸收合并中科曙光(虽终止但方向明确)芯片+系统整机纵向整合,追求”芯片到算力”闭环🔴 极高
传统产业跨界收购大胜达5.5亿元入股芯瞳半导体传统企业寻求转型,GPU企业寻求”卖身”🟡 中等
大厂收编字节跳动/阿里/腾讯收购独立GPU企业云厂商自研芯片的”加速器”🟡 中等

海光信息-中科曙光合并案(2025年5月-12月)是国产算力领域最具标志性的整合事件。这笔交易金额约1159.67亿元,是证监会”并购六条”落地后的首单上市公司间吸收合并[64167]。虽然最终因”市场环境较交易筹划之初发生较大变化”而终止,但其揭示的底层逻辑并未改变——芯片企业需要整机系统能力来验证产品,系统企业需要芯片能力来降低成本。海光信息总经理沙超群在终止合并后仍表示”双方仍将保持算力全链条协同发展”[64163]。可以预见,这一级别的整合将以某种形式在未来重新出现。

大胜达收购芯瞳半导体(2026年3月)则代表了另一种整合范式——传统行业上市公司跨界”捡漏”。大胜达(包装纸企业)以5.5亿元取得芯瞳半导体22.98%股权,标的估值从11.6亿元(老股转让)跳升至20亿元(增资),对赌条款触发条件为”芯瞳第三代GPU GB3000流片成功”[64055]。这笔交易暴露了芯瞳的困境:净资产为负,2025年营收仅5000万元,第三代GPU尚未流片,同业普遍已到三代量产[64056]。传统企业跨界收购的”救援式整合”能否成功,取决于被收购方的技术实力是否真的被低估,以及收购方是否有能力持续投入——目前来看,风险极高。

8.7.2.3. 资本维度的关键判断

2026年是”资本筛选”元年。上市企业将面临”业绩兑现”压力,未上市企业将面临”融资断流”压力。行业将从”资本驱动研发”进入”收入驱动研发”阶段。中邮证券首席经济学家黄付生的判断一针见血:“2026年资本会更看重中国科技股在产品端、应用端的实际推出和落地情况。预计科技股会出现急剧分化,2025年那种’概念普涨’的定价逻辑难以持续。“[64010]

核心推论:已上市6家(寒武纪+海光+摩尔线程+沐曦+壁仞+天数智芯)构成”第一融资圈”,拥有相对充裕的资金储备;燧原科技(IPO过会)+昆仑芯(冲刺港股)构成”第二融资圈”,窗口期仍在但紧迫;其余10余家未上市企业构成”融资困难户”,部分企业已出现”断炊”近两年的情况[64007]资本整合的底层逻辑是:钱会向能证明商业化能力的企业集中,而不是向技术参数最漂亮的企业集中。

8.7.3. 技术维度:从”百花齐放”到”路线收敛”

8.7.3.1. 同质化是最大的整合催化剂

如果仔细审视国产GPU/AI加速器赛道,一个令人不安的事实浮现:在产品层面,绝大多数厂商集中在极其相似的AI推理赛道。根据Bernstein Research 2025年数据,华为昇腾(102.68亿美元)和英伟达(101.98亿美元)合计占据中国AI加速器市场约80%份额,剩余约20%由寒武纪(9.99亿美元,4%)、海光(11.18亿美元,4%)、平头哥、昆仑芯等十余家厂商瓜分[64184]

“四小龙”(摩尔线程、沐曦、壁仞、燧原)加上天数智芯、瀚博、登临等,在AI训练/推理这一狭小赛道上形成”千军万马过独木桥”之势。而它们的核心产品——7nm制程、对标A100/H100的AI加速卡——在性能参数上呈现高度趋同。这种”同质化竞争”的后果是:客户选择芯片的标准从”谁更强”变成了”谁更便宜+谁的服务更好”,价格战不可避免。

壁仞科技2025年上半年毛利率已下降至31.9%,显示出价格竞争压力[64012]。当全行业都生产”类似A100”的产品时,唯一的差异化来自软件生态和客户服务——而这两项恰恰是烧钱最多、见效最慢的。

8.7.3.2. 技术路线收敛的”漏斗效应”

从技术路线的演进来看,整合存在一个清晰的”漏斗”:

                         全功能GPU(摩尔线程、沐曦弱化版、景嘉微)
                        /
AI专用加速器 ──────────┼── CUDA兼容策略(横跨多条硬件路线)
                        \
                         RISC-V GPU IP(芯动科技、芯原股份)
                         
                         ↓ 路线收敛方向 ↓
                         
          ┌──────────────────────────────────┐
          │  未来3-5年存活路线:              │
          │  1. 全功能GPU(1-2家)            │
          │  2. AI训练专用(1-2家)            │
          │  3. AI推理专用(1-2家)            │
          │  4. 图形GPU(信创/军用,1-2家)    │
          │  5. GPU IP授权(1家)              │
          └──────────────────────────────────┘

关键判断:技术路线收敛本身就是整合。当市场证明”全功能GPU路线”(摩尔线程2026Q1盈利)和”AI专用加速器路线”(华为昇腾大规模出货)都能跑通时,夹在中间的”模糊路线”厂商——想做图形但没做出来、想做训练但性能不够、想做推理但成本不占优——将最先被淘汰。技术整合的底层逻辑是:市场不需要20家”70分的A100替代品”,需要的是2-3家”90分的产品”加上完整的软件生态。

8.7.3.3. 软件生态的”加速器效应”

英伟达CUDA生态经过十余年发展,已积累超400万开发者——而国产GPU的软件生态适配率平均不足40%[64226]。这个差距在短期内无法靠”砸钱”弥合,但可以通过”整合”加速。

逻辑在于:软件生态建设具有强烈的”规模效应”。一个开发者社区需要足够的装机量来吸引开发者,而足够的开发者又能产出更多的适配应用来吸引客户——这是一个”鸡生蛋、蛋生鸡”的循环。如果20家厂商各自建设独立的软件栈(20套自研框架+20套算子库+20套调试工具),每个生态的开发者可能只有几百人,生态永远长不大。但如果行业整合为3-5家,每家装机量达到数十万张,开发者社区规模有望达到数万人级别,生态建设才有望进入正循环。

这就是为什么”国产统一生态”虽然美好但难以实现——因为统一生态的前提是 先有硬件市场的集中。在硬件市场仍然碎片化的阶段,任何”统一生态”的倡议都缺乏执行力。

8.7.4. 客户维度:从”试一试”到”用起来”的残酷筛选

8.7.4.1. 客户结构的”金字塔困局”

国产GPU的客户结构呈现一个”金字塔”形态:

客户层级典型客户采购逻辑国产GPU渗透率整合影响
顶层:云大厂自研阿里(平头哥)、百度(昆仑芯)、华为(昇腾)、字节(寒武纪部署)“自研芯片+云服务”闭环极高(自用)独立GPU厂商被排除
中层:互联网大厂外采腾讯、字节(非自研部分)、美团、快手推理优先,训练仍用英伟达中等(20-30%)最多选2-3家供应商
底层:政企/运营商/信创三大运营商、政府智算中心、金融/能源国企政策驱动+性价比高(政策要求)分散采购,但趋向集中

最致命的威胁来自顶层:云大厂正在加速自研。根据IDC、弗若斯特沙利文数据,中国AI公有云服务市场80%以上份额被阿里、百度、腾讯、华为、字节等大厂占据[63954]。而这些大厂几乎都在加速自研AI芯片。腾讯副总裁邱跃鹏2025年9月表态:“今天我们的GPU计算资源越来越异构,很多国产芯片在不断提升计算性能。“[63996]——这话的另一面是:腾讯在”兼容”国产芯片,但并没有大规模采购某一家独立GPU厂商的产品。

一位大厂战略研究分析师直言:“我觉得国产GPU最大的威胁不是英伟达,是云厂商自研的ASIC芯片。“[64040] 当最大的潜在客户群体正在变成竞争对手时,独立GPU企业的市场空间被结构性压缩。

8.7.4.2. 客户黏性的”反直觉”特征

有一个反直觉的事实:国产GPU的客户黏性可能比想象中更低

摩尔线程的招股书数据揭示了一个隐忧:其营收主要靠新”大单”支撑,客户”续费”率不高[64199]。这说明客户在首次采购国产GPU后,并未形成”惯性复购”——这与英伟达客户(一旦部署CUDA生态,几乎终身绑定)形成鲜明对比。

原因在于:国产GPU的软件生态尚未形成”锁定效应”。客户今年采购A厂商的芯片,明年完全可以切换到B厂商——因为迁移成本都很高,没有哪家能提供”零成本迁移”。这意味着 客户忠诚度建立在”产品性能+服务+价格”的综合竞争力上,而非生态锁定。一旦某家厂商产品迭代落后或服务跟不上,客户可以迅速切换——而这对厂商的持续投入能力提出了极高要求。

8.7.4.3. 客户维度的整合推演

客户整合的底层逻辑是”三选一”:对于大多数互联网和政企客户而言,他们只愿意在1-2家国产GPU供应商上投入适配资源。多一家供应商意味着多一套软件栈、多一套运维流程、多一个团队培训——这些隐性成本远超硬件采购成本。因此,客户会主动”投票”——将订单集中到他们认为”最有可能长期存活”的1-2家供应商。这种”客户驱动的整合”比资本驱动的整合更残酷,因为它是基于”生存预期”的自我实现预言:客户认为谁会赢,谁就更可能赢。

8.7.5. 供应链维度:产能分配的”马太效应”

8.7.5.1. 先进制程产能:最稀缺的”硬通货”

国产GPU面临的最硬性约束是 先进制程产能。当前,国产GPU主要采用7nm工艺,而中国的7nm产能几乎全部依赖中芯国际[64066]。中芯国际7nm产能2025年约为每月4万片(12英寸等效),但需要分配给海光、寒武纪、华为、壁仞、沐曦、摩尔线程等十余家GPU/AI芯片厂商,以及大量手机AP、汽车芯片等客户[63995]

按每片晶圆可切割约60-80颗GPU芯片(假设芯片面积~400mm²),月产能4万片对应月产量240-320万颗——看似充裕,但考虑到良率(中芯国际7nm约90%)、产能分配优先级(手机AP厂商出货量更大、议价能力更强)、以及部分产能用于非GPU产品,实际分配给国产GPU厂商的产能可能仅够支撑头部5-6家。

产能分配的逻辑是残酷的:晶圆代工厂倾向于将产能分配给”量大、价高、稳定”的客户。具体而言:

  • 华为昇腾:出货量最大(2026年预计120万张),中芯国际第一大GPU客户,产能优先级最高
  • 海光信息:CPU+DCU双线出货,2024年营收91.62亿元,产能稳定
  • 寒武纪:2025年底遭遇供应链中断,思元690延期至2026年下半年[64013]
  • 摩尔线程/沐曦:上市后资金充裕,可以预付争取产能
  • 中小厂商:产能排期长、配额少、价格高——芯瞳半导体GB3000的7nm流片就面临这一困境[64047]

8.7.5.2. 供应链的”全栈国产化”趋势

沐曦在招股书中披露:其下一代曦云C700系列将”基于国产供应链打造”[64097]。这不仅是技术选择,更是生存策略——在台积电对华供应受限的背景下,能够跑通”国产EDA+国产IP+国产代工+国产封装”全栈供应链的企业,才有资格谈”长期主义”。

国产供应链的进展:

  • 代工:中芯国际7nm良率已达90%,通过N+3多重曝光实现等效5nm[64077];华虹集团2026年底有望实现先进制程月产数千片初始产能[64067]
  • 封装:长电科技、通富微电掌握FCBGA等先进封装工艺;华为通过CoAsia异构封装方案实现HBM突破[64079]
  • EDA:华大九天已实现14nm数字电路EDA自主化,逐步向7nm推进[64203]
  • 材料:国产硅片自给率2026年或达70%[64079]

但”全栈国产化”并非一蹴而就。芯瞳半导体的案例揭示了小厂商的困境:7nm流片单次成本约3000-5000万元,中芯国际7nm良率对新设计首次流片通常<30%[64047]。一次流片失败可能意味着数千万打水漂+6个月时间损失——这对资金紧张的小厂商是致命打击。

8.7.5.3. 供应链维度的整合推演

供应链整合的底层逻辑是”产能投票”:中芯国际等代工厂的产能分配本身就是一种”产业筛选”——只有能够持续大规模下单、预付高比例货款的厂商,才能获得稳定的先进制程产能。沐曦招股书披露其前五大供应商采购占比超90%,且为保障供应向晶圆/HBM供应商提前订货并预付高比例货款[63987]。这种”预付锁定产能”的模式,意味着 供应链本身就是一座”付费墙”——资金实力不足的厂商根本进不了先进制程的门槛。

更深远的影响:当国产供应链(中芯国际+华虹)逐步成熟,台积电的”卡脖子”效应减弱后,行业将从”谁能拿到台积电产能”的竞争,转向”谁能在国产供应链上实现最优性价比”的竞争。这一转变将加速淘汰那些依赖台积电但无法转向国产供应链的厂商。

8.7.6. 四维整合的”共振效应”:2027-2028年的关键窗口

四个维度的整合压力并非独立运作,而是存在强烈的”共振效应”:

                    资本收紧

          ┌─────────────────────────┐
          │ 尾部厂商融资困难         │
          │ → 无法预付晶圆产能       │
          │ → 产品迭代延迟           │
          │ → 客户流失               │
          │ → 收入下降               │
          │ → 更难融资 ←────────────┐│
          └─────────────────────────┘│
                     ↑                │
                供应链排挤            │
                     ↑                │
                客户集中              │
                     ↑                │
                技术同质化            │
                     └───────────────┘

这个”死亡螺旋”一旦启动,3-6个月内即可终结一家中小GPU企业。而2027-2028年将是关键窗口期——届时,目前的头部厂商首批IPO资金将消耗过半,行业将进入”二次筛选”阶段:

  • 第一波淘汰(2026-2027):尚未上市、资金链紧张、产品尚未量产的企业
  • 第二波淘汰(2027-2028):已上市但商业化不及预期、市值大幅缩水、无法二次融资的企业
  • 第三波淘汰(2028-2029):技术路线被证伪、客户流失严重、被并购或退出的企业

8.7.7. 整合后格局预判:从”春秋战国”到”三国演义”

基于以上四维分析,国产GPU/AI加速器赛道的最终格局可能呈现为:

层级预计存活企业核心逻辑预估市场份额
第一梯队(平台型)华为昇腾、海光信息昇腾凭生态+出货量;海光凭x86兼容+DCU+中科院体系50-60%
第二梯队(头部独立)摩尔线程、寒武纪摩尔线程全功能GPU+盈利拐点;寒武纪AI芯片+互联网客户20-25%
第三梯队(利基玩家)沐曦、景嘉微、芯原股份沐曦训练+国产供应链;景嘉微军用+信创图形;芯原GPU IP10-15%
被并购/退出壁仞、天数智芯、燧原、昆仑芯、瀚博、登临、砺算、芯动、象帝先等单点技术强但商业闭环不完整,或成为大厂收购标的5-10%

关键判断:行业不会走向”一家独大”(政策不允许),也不会长期维持”百花齐放”(经济规律不允许),而是走向”3+3+N”格局——3家平台型(华为、海光、1家待定)+3家头部独立(摩尔线程、寒武纪、1家待定)+N家利基玩家。这个格局将在2028-2029年基本定型。

整合的终极逻辑:半导体行业的发展史反复证明,GPU赛道从来不是”创意竞争”的赛道,而是”规模竞争”的赛道。从NVIDIA收购3dfx(2000年)、AMD收购ATI(2006年)、Intel退出独立GPU(2022年重返但步履维艰),到中国市场的”春秋战国”走向”寡头整合”——历史不会重复,但会押韵。国产GPU行业整合的底层逻辑,归根结底是:一个国家不需要20家GPU公司,就像不需要20家CPU公司一样。 整合不是”失败”,而是产业成熟的标志。

8.7.8. 整合风险:警惕”为整合而整合”的陷阱

必须指出,整合并非万能药。以下风险值得警惕:

  1. 估值错配风险:海光信息-中科曙光合并终止的核心原因之一就是”估值体系错位”[64132]。当买方市值高、卖方市值低时,换股比例难以达成一致。2025年11-12月,国科微、帝奥微、海光信息、芯原股份等6家半导体企业密集终止收购案,估值错配是主因之一[64132]

  2. 整合后协同风险:半导体行业并购的失败率高达50%以上。技术路线不同、团队文化冲突、客户重叠——任何一项都可能导致整合失败。有媒体统计,2024年55只退市股中约三成在过去十年内曾开展跨界并购或借壳上市[64139]

  3. “大而不强”风险:并购可能带来规模效应,但未必能解决核心技术短板。如果整合只是把几家”70分的A100替代品”合并成一家”70分的A100替代品”,整合没有创造价值。

  4. 政策不确定性:反垄断审查、证监会注册审批、跨境并购的监管障碍——任何一个环节出问题都可能叫停交易。海光信息-中科曙光的千亿合并就是前车之鉴。


本节基于截至2026年6月的公开信息撰写。所涉公司财务状况、产品进展、并购动态等均引用自公开披露文件,部分前瞻性判断基于合理推演,不构成投资建议。

9. 最终结论与建议

9.1. 中国国产GPU/AI加速器Top 10观察名单

给出综合评估后的前10家厂商及入选理由

遴选方法论说明:本观察名单基于截至2026年6月18日的公开信息,从芯片架构能力、工程实现能力、软件栈成熟度、商业化规模、客户质量、资本认可度、供应链安全性、未来成长性八个维度进行综合加权评估。排名并非简单的“技术最强”或“营收最高”,而是面向产业投资人、智算中心建设方、AI大模型企业的 综合投资价值与战略卡位 排序。以下为详细排名及入选理由。


9.1.1. 综合排名总览

排名公司核心标签2025年营收/出货上市状态一句话入选理由
1华为昇腾国产AI算力“一超”出货81.2万张,国产份额~50% [66740]未单独上市(华为体系内)出货量、生态、客户、政企关系、系统级能力全面断层领先
2海光DCU唯一x86+GPGPU双轮驱动143.77亿元(含CPU),DCU占比~35%+ [64250]科创板上市(688041)营收最高、类CUDA生态最成熟、信创+AI双受益
3阿里平头哥真武互联网大厂“自研核弹”累计出货56万片,年化营收超百亿 [66826]拟分拆独立上市阿里云生态加持、千问大模型深度耦合、外部客户超400家
4寒武纪AI芯片“二级市场之王”64.97亿元,首次全年盈利20.59亿元 [64345]科创板上市(688256)营收爆发453%、思元590放量、互联网大厂渗透率超40%
5百度昆仑芯运营商集采“破局者”预计35-50亿元,出货13万片 [65791]提交港交所+A股辅导万卡/三万卡集群点亮、中国移动十亿级订单、外部收入首超内部
6摩尔线程“国产GPU第一股”15.05亿元,毛利率~70% [64775]科创板上市(688795)唯一全功能GPU路线、花港架构、MUSA生态、消费级布局
7沐曦CUDA兼容“最激进派”16.44亿元,在手订单14.3亿元 [65528]科创板上市MXMACA兼容6000+CUDA应用、C600全流程国产供应链闭环
8壁仞科技制裁后“最强逆袭”10.35亿元,在手订单12.41亿元 [65015]港股上市(06082)从台积电断供到BR166量产、营收+207%、运营商千卡集群落地
9天数智芯训练+推理“双量产先驱”10.34亿元,累计出货5.2万片 [65354]港股上市(09903)字节跳动5万片采购洽谈中、推理业务+238%、340+客户
10燧原科技腾讯系“第四极”9.90亿元,S60累计出货超10万卡 [65435]科创板IPO过会(2026.6.15)[65614]邃思400量产、十万卡集群建设、四小龙中最后一家登陆资本市场

9.1.2. 逐家入选理由

9.1.3. 第1名:华为昇腾(Ascend)

入选理由——“只要华为还在,它就是国产算力的默认选项。”

昇腾是当前中国国产AI芯片领域唯一的“超一线”选手,2025年出货81.2万张,占国产AI芯片总出货量近50%,按销售额计市场份额约40%,与英伟达在中国市场基本持平 [66740]。在20多个城市的智能计算中心中占据79%的市场份额,政企AI基础设施的“默认选项”地位稳固 [66749]

核心优势

  • 系统级能力独一档:Atlas 900超节点(384颗910C互联,300 PFLOPS)累计部署超300套,这是其他国产厂商目前无法复制的集群工程能力 [64327]
  • 芯片迭代速度惊人:从910B→910C→920→950PR/DT→960→970,三年路线图清晰,2026年Q1发布的950PR已搭载自研HBM,DeepSeek V4明确适配 [64661]
  • CANN全面开源:2025年8月CANN开源是生态转折点,寒武纪、摩尔线程已宣布适配CANN架构 [63445]
  • 客户覆盖最全:字节跳动(2026年订单或超400亿元)、阿里、腾讯、百度、中国移动、小红书、比亚迪、深圳政务等 [64602]

核心短板

  • 先进制程受限于SMIC 7nm DUV,与台积电4nm存在代差
  • HBM供应仍是最大瓶颈(自研HBM刚起步)
  • CANN开源后能否真正开放给第三方硬件仍存疑

架构师注:昇腾不是“一家公司”,它是华为整个ICT基础设施体系中的“算力心脏”。其他厂商是在和“一家公司”竞争,而昇腾是在和“一个生态体系”竞争——这本质上是不同维度的竞赛。


9.1.4. 第2名:海光DCU(Hygon DCU)

入选理由——“营收最高、生态最接近CUDA、信创+AI双轮驱动最稳。”

海光信息2025年营收143.77亿元(+56.92%),归母净利润25.45亿元,是国产GPU/AI加速器赛道中唯一营收突破百亿、持续稳定盈利的公司 [64250]。DCU产品收入占比已提升至35%以上,成为拉动营收高增的第二引擎 [66758]

核心优势

  • 类CUDA架构迁移成本最低:基于AMD CDNA授权+ROCm生态,HIP转译仅需约15人天,是国产厂商中CUDA迁移成本最低的方案 [63427]
  • 深算三号性能对标A100:深度学习性能较前代提升超100%,算子覆盖度超99%,已适配DeepSeek-V3.2等主流大模型 [64294]
  • CPU+DCU“双轮驱动”:海光是国内唯一同时拥有x86兼容CPU和GPGPU的厂商,CPU在金融/电信信创市场占有率超60%,可为DCU提供“搭售”渠道 [64267]
  • 光合组织生态:6000+合作伙伴、15000+联合解决方案,生态壁垒深厚 [64286]

核心短板

  • DCU底层架构依赖AMD授权,长期自主迭代空间受限于授权协议
  • 深算三号性能对标A100(落后H100/B200两代)
  • 2025年毛利率57.78%,DCU占比提升拉低综合毛利率 [66770]

架构师注:海光是“最像AMD”的中国公司——这既是优势也是诅咒。优势在于生态兼容性碾压同类,诅咒在于核心技术路线受制于授权方。但在当前地缘政治环境下,“能用”比“自主”更紧迫,海光的务实路线反而最受政企客户青睐。


9.1.5. 第3名:阿里平头哥真武(T-Head Zhenwu PPU)

入选理由——“互联网大厂自研芯片的‘天花板’,出货量已超越寒武纪。”

真武系列PPU的崛起是2025-2026年国产AI芯片领域最大的“黑马事件”。截至2026年5月,真武系列累计出货56万片,2025年出货约26.5万片,在国内AI芯片厂商中跃居第二,首次在规模上超越寒武纪 [66826]。年化营收超百亿元,60%以上芯片服务于外部商业化客户 [66842]

核心优势

  • 阿里云+千问模型深度耦合:真武PPU在阿里云实现多个万卡集群部署,与通义千问大模型形成“芯片-云平台-模型”三位一体架构,训练和推理效率经过深度优化 [66825]
  • 自研并行计算架构:真武810E采用自研架构+96GB HBM2e+700GB/s片间互联,综合性能对标英伟达H20 [66816]
  • 客户矩阵丰富:服务国家电网、中科院、小鹏汽车、新浪微博、中国电信、浦发银行等400+客户,覆盖互联网、金融、汽车、能源等多个行业 [66825]
  • 路线图清晰:真武M890(2026年5月已发布128卡超节点)、真武V900(2027年Q3,216GB显存/1200GB/s互联)、真武J900(2028年Q3)[66822]

核心短板

  • 真武810E使用HBM2e(低于H20的HBM3),与英伟达旗舰产品仍有代差
  • 软件生态与CUDA的差距需要长期追赶
  • 目前仍属于阿里体系内,独立上市进程和治理结构尚不明确

架构师注:平头哥是“含着金钥匙出生”的芯片公司——阿里云既是它的客户、也是它的试验场、更是它的销售渠道。这种“内部循环”模式在芯片验证期是巨大优势,但在大规模外拓时也可能成为包袱——客户会担心自己的数据跑在竞争对手的芯片上。平头哥能否真正“独立”,是其从“阿里内部工具”升级为“行业通用平台”的关键。


9.1.6. 第4名:寒武纪(Cambricon)

入选理由——“2025年营收爆发453%、首次全年盈利、AI芯片二级市场标杆。”

寒武纪2025年实现营收64.97亿元(+453.21%),归母净利润20.59亿元,上市以来首次全年盈利 [64345]。2026年Q1延续高增长,营收28.85亿元(+159.56%)[64537]。市值一度突破7000亿元,是A股AI芯片板块的“风向标” [64538]

核心优势

  • 思元590规模化放量:综合性能对标A100的80-90%,已通过字节跳动、阿里、腾讯等互联网大厂测试并在千卡级集群中部署,2024年向字节跳动交付约2-3万片 [64520]
  • 智算中心份额领先:政府智算中心集采份额超40%,南京智算中心部署7280块寒武纪AI加速卡 [64367]
  • 思元690在研:Chiplet异构集成(12nm+7nm混合封装),性能较前代提升2倍 [64519]
  • 资本储备充足:约40亿元定增方案获上交所审核通过 [64579]

核心短板

  • 出货量与市值严重背离:2024年出货仅2.6万片(华为昇腾的4%),2025年预计约14.2万片,但市值一度超7000亿元 [66779]
  • 客户集中度极高:2024年第一大客户销售占比79.15%,近三年前五大客户占比超84% [64362]
  • 思元690量产延迟:从2025年底推迟至2026年下半年 [64521]
  • 产品信息披露不透明:官网上未展示思元590,公开技术参数有限 [66779]

架构师注:寒武纪是国产AI芯片中“最像英伟达”的——不是技术路线像,而是资本市场给的估值像。它的问题在于:营收增速虽然惊人,但营收基数(2024年仅11.74亿元)和出货量(2.6万片)与市值(7000亿)之间的鸿沟,需要未来3-5年持续超高速增长来弥合。思元690能否顺利量产并打开局面,是验证这个估值逻辑的关键。


9.1.7. 第5名:百度昆仑芯(Kunlunxin)

入选理由——“运营商集采‘破局者’、国产首个万卡集群、外部收入首超内部。”

昆仑芯P800在2025年点亮国内首个全自研万卡集群,随后进一步扩展至三万卡集群,为国产AI芯片单一集群规模天花板 [N65763]。2025年在中国移动AI推理集采中三个标包均排名第一(份额70%/70%/100%),订单规模达十亿级——这是国产AI芯片首次大规模走进运营商集采核心标段 [N65763][N65785]。

核心优势

  • P800芯片成熟度高:FP16算力345TFLOPS,首款支持单机部署DeepSeek V3/R1 671B全量版模型的国产芯片
  • 百度飞桨深度协同:推理效率提升30%以上 [N65788]
  • 外部商业化里程碑:外部业务比重已超过向百度内部供货,客户覆盖运营商、金融、能源、汽车、消费电子等 [N65780]
  • 下一代路线图清晰:M100(2026年推理优化)、M300(2027年多模态训推)、天池256/512超节点 [N65768][N65769]
  • IPO双线推进:港交所+科创板“A+H”

核心短板

  • 2024年出货量6.9万片,与华为昇腾(64万片)差距近10倍
  • 百度生态依赖度仍然较高(外部客户占比约40%)
  • P800使用HBM2e,性能与英伟达H100/B200存在代差

架构师注:昆仑芯的“中国移动大单”具有标志性意义——它证明了国产AI芯片可以在公开招标中凭实力(而非政策保护)获得运营商核心标段。如果昆仑芯能将这一模式复制到电信、金融等其他行业,它有可能成为“国产AI芯片的普惠版”——不是最顶尖性能,但性价比最高、部署最方便。


9.1.8. 第6名:摩尔线程(Moore Threads)

入选理由——“唯一全功能GPU路线、国产GPU第一股、消费级+数据中心双线布局。”

摩尔线程2025年12月登陆科创板,成为“国产GPU第一股”,上市首日市值约2822亿元 [64639]。2025年全年营收15.05亿元(+243.37%),毛利率攀升至约70% [64775]

核心优势

  • 全功能GPU路线独树一帜:从图形渲染到AI训推到HPC,是国内唯一同时在消费级游戏显卡(S80)和数据中心智算卡(S5000)两条战线作战的公司
  • 迭代速度惊人:五年五代架构(苏堤→春晓→曲院→平湖→花港),2025年12月发布的“花港”架构支持FP4-FP64全精度、十万卡集群 [64450]
  • “华山”+“庐山”+“长江”三芯齐发:AI训推一体(华山)、高性能图形渲染(庐山,支持DX12 Ultimate)、智能座舱SoC(长江)[64800]
  • MUSA生态兼容CUDA:MUSIFY工具自动转换CUDA代码,降低迁移成本
  • 在手订单充裕:截至2025年6月底,洽谈中项目合同金额超17亿元 [64689]

核心短板

  • 尚未盈利(2025年净亏损10.24亿元),预计最快2027年实现盈利 [64689]
  • 客户集中度极高:2025年H1前五大客户占比98.29%,单一第一大客户占比56.63% [64680]
  • 软件栈大部分闭源(GitHub仅公开3个库),社区生态薄弱 [63502]
  • 消费级显卡(S80)商业化规模有限,AI智算业务占比94.7%

架构师注:摩尔线程是“最像英伟达”的中国公司——不是因为它已经做到了英伟达的水平,而是因为它的战略路径(全功能GPU+自有软件栈+消费级+数据中心)与英伟达最为相似。但“全功能”意味着“全都要烧钱”——图形、AI、HPC、视频编解码、消费级驱动,每一条线都需要数百人的团队持续投入。在英伟达每年投入几百亿美元研发的背景下,摩尔线程的80亿IPO募资能撑多久,是一个必须严肃回答的问题。


9.1.9. 第7名:沐曦(MetaX)

入选理由——“CUDA兼容最激进、C600全流程国产供应链闭环、营收增速121%。”

沐曦2025年营收16.44亿元(+121%),2025年12月科创板上市,首日市值超2700亿元 [65528]。在手订单14.3亿元(截至2025年9月),曦云C500系列为当前营收主力 [65496]

核心优势

  • MXMACA兼容CUDA生态最激进:已适配超6000个国际主流应用与超1000个模型,累计生态开发者用户近50万 [65301]
  • C600全流程国产供应链闭环:2025年7月回片点亮,中芯国际代工+国产封测,2026年上半年正式量产,性能介于A100与H100之间 [65666]
  • Day 0级大模型适配能力:DeepSeek-R1、Kimi-K2、腾讯混元、阿里千问、智谱GLM等头部模型几乎同步首发适配 [65548]
  • “四系列”产品矩阵完整:曦思(推理)、曦云(训推)、曦彩(图形渲染)、曦索(科学智能),覆盖云边端 [65502]

核心短板

  • 尚未盈利(2025年净亏损7.81亿元)
  • 营收高度依赖曦云C500单一产品(2024年占比97.28%)
  • 大客户集中度较高(超讯通信为第一大客户)
  • 图形渲染(曦彩G系列)和科学计算(曦索X系列)尚未规模商业化

架构师注:沐曦的“6000+ CUDA应用适配”是一把双刃剑——它意味着极低的迁移成本,但也意味着沐曦在技术上始终在“追赶”而非“定义”。C600的国产供应链闭环是其最大亮点,如果能在2026年上半年顺利量产并保持良率,沐曦将拥有其他依赖台积电的厂商不具备的供应链韧性。


9.1.10. 第8名:壁仞科技(Biren Technology)

入选理由——“制裁后最强逆袭,从BR100无法量产到BR166系列营收+207%。”

壁仞科技2022年发布的BR100(770亿晶体管、7nm Chiplet)曾是国产GPU的“技术巅峰”,但因美国制裁和台积电断供未能实现大规模量产 [64870]。公司迅速转向国产替代方案,BR106/BR116/BR166系列在2025年实现10.35亿元营收(+207%),毛利率53.8% [65015]。2026年1月港股上市 [64989]

核心优势

  • 制裁后快速转向能力:从BR100到BR166的产品重塑仅用不到两年,验证了团队工程能力
  • 运营商客户质量高:中国电信千卡集群连续训练30天不中断,可靠性得到验证 [64885]
  • 技术底蕴深厚:BR100的770亿晶体管Chiplet设计经验不会消失,BR20X系列(2026年下半年)有望回归高端
  • “光跃LightSphere X”光互连超节点:获世界人工智能大会SAIL奖,面向下一代集群互联 [64885]

核心短板

  • 原版BR100(双die旗舰)事实未量产,品牌和技术标杆与实际出货产品之间存在落差
  • 营收规模在“四小龙”中偏小(10.35亿元 vs 沐曦16.44亿元、摩尔线程15.05亿元)
  • 港股上市估值偏低(发行价19.60港元,远低于A股同类公司)
  • 2026年Q1营收仅约0.5亿元(2025年H1为0.59亿元),季节性波动大

架构师注:壁仞是国产GPU赛道中最具“悲情英雄”色彩的公司——BR100本可以是国产GPU的里程碑,却被制裁扼杀在摇篮里。但壁仞团队的韧性值得尊敬:他们没有放弃,而是快速转向务实路线,用BR166重建商业化基础。BR20X系列能否让壁仞重回高端市场,是未来3年最值得关注的变量之一。


9.1.11. 第9名:天数智芯(Iluvatar CoreX)

入选理由——“训练+推理双量产先驱、字节跳动5万片采购洽谈、累计出货5.2万片。”

天数智芯是中国首家实现“训练+推理”通用GPU双量产的芯片设计企业,截至2025年6月累计交付超5.2万片通用GPU产品,服务超340家客户 [65107]。2025年营收10.34亿元(+91.6%),推理业务收入同比增长238.2% [65354]。2026年1月港股上市 [65088]

核心优势

  • 字节跳动大单在即:正与字节跳动洽谈采购AI推理芯片,预计年内交付至少5万片——若交易达成,天数智芯将成为字节跳动第三大中国AI芯片供应商 [65108]
  • 四代架构路线图雄心勃勃:天枢(2025,超越Hopper)→天璇(2026,对标B200)→天玑(2026,超越Blackwell)→天权(2027,超越Rubin)[65561]
  • 推理芯片增速惊人:推理业务收入+238.2%,在国产替代从“训练优先”转向“推理为王”的趋势中卡位精准
  • 毛利率持续改善:从2023年的49.5%提升至2025年的54.0% [65354]

核心短板

  • 营收规模在“四小龙”中垫底(10.34亿元)
  • 天垓Gen3量产延迟(从2025年推迟至2026年Q1)
  • 四代架构路线图过于激进(3年超越Rubin),实现概率存疑
  • 港股估值偏低(IPO市值约354亿港元)

架构师注:天数智芯是“四小龙”中最务实的一家——不追求“全功能GPU”的宏大叙事,而是踏踏实实地把训练和推理芯片量产、交付、迭代。字节跳动的5万片采购如果落地,将是对天数智芯产品成熟度的最强背书。但路线图中“2027年超越Rubin”的表述,在先进制程受限的背景下,需要更多“如何做到”的细节来支撑。


9.1.12. 第10名:燧原科技(Enflame)

入选理由——“邃思400量产、S60累计出货超10万卡、腾讯系‘第四极’、IPO过会。”

燧原科技2025年营收9.90亿元,2023-2025年营收复合增长率超80% [65632]。第四代邃思400芯片(L600训推一体模组)于2025年7月发布,原生支持FP8精度 [65458]。第三代S60推理卡累计出货超10万卡 [65474]。2026年6月15日科创板IPO过会,拟募资60亿元 [65614]

核心优势

  • 邃思400技术规格亮眼:144GB存储容量、3.6TB/s存储带宽、800GB/s互联带宽,原生FP8,支持单层128卡全互联拓扑 [65462]
  • S60推理卡出货量印证产品力:累计超10万卡,在互联网客户和各地智算中心实现规模化部署
  • 十万卡集群建设推进中:已启动第五代、第六代AI芯片预研 [65451]
  • 腾讯生态加持:腾讯既是第一大股东(持股约20.26%)也是第一大客户,为其提供稳定的“内循环”验证场景

核心短板

  • 客户集中度极高——腾讯依赖症:2025年对腾讯销售8.30亿元,占营收83.79% [65432]
  • 持续亏损:截至2025年末累计未弥补亏损达44.41亿元,预计2026-2027年实现盈亏平衡
  • 毛利率偏低:2025年约32.71%,低于行业均值 [65426]
  • 不追求100%兼容CUDA:独立生态策略在短期增加了客户迁移成本

架构师注:燧原科技是“四小龙”中最后一家登陆资本市场的,也是“腾讯依赖症”最明显的。83.79%的营收来自单一大股东客户,这在IPO审核中是一个巨大的红旗——监管必然会问:“如果没有腾讯,燧原还能独立生存吗?”燧原需要在上市后用募资的60亿元加速拓展非腾讯客户,否则“腾讯系芯片公司”的标签将长期压制其估值天花板。


9.1.13. 未入选但值得关注的“第十一名”及特殊品类

公司未入选原因核心关注点
景嘉微(300474)营收7.20亿元,芯片独立销售收入仅约1.1-1.3亿元且同比下滑,主要靠军工显控模块拉动 [65698]唯一A股上市图形GPU标的,JM9系列在信创桌面GPU市占率约30%,JM11若放量可能改变格局 [65147]
登临科技营收数据未公开披露,商业化规模难以验证GPU+异构架构独特,KS系列云端推理卡适配MiniMax M2.5,港股IPO计划中(募资3-4亿美元)[66149]
瀚博半导体营收数据未公开披露估值105亿元(胡润独角兽),SV100/SG100双代量产,云渲染+大模型推理双线,IPO辅导已完成 [10]
象帝先2024年濒临崩溃,2025年“复活”但营收未公开伏羲A0(5nm/160TFLOPS/HBM2)是国产GPU中唯一量产的IMG DXD架构产品,技术路线独特 [66018]
砺算科技2025年营收仅2.48万元,尚未产生实质性收入首款全自研6nm消费级GPU,对标RTX 4060,京东618首发,但商业化验证刚刚开始 [65893]
芯动科技营收数据未公开,风华3号刚发布尚未量产风华2号在信创桌面市占率领先,风华3号性能参数亮眼(FP32 78 TFLOPS),但需量产验证 [66464]

9.1.15. 核心结论

  1. “一超多强”格局已定:华为昇腾作为“一超”,在出货量、生态、政企关系和系统级能力上断层领先;海光DCU、阿里平头哥、寒武纪、昆仑芯构成“四强”,分别在信创生态、互联网大厂自研、AI芯片独立上市、运营商集采四个维度形成差异化优势。

  2. “四小龙”(摩尔线程、沐曦、壁仞、天数智芯)进入10亿营收俱乐部:2025年四家均突破10亿元营收大关,标志着国产GPU从“实验室产品”到“商品”的关键跨越。但“四小龙”之间的竞争才刚刚开始,2026-2027年将是淘汰赛的关键窗口。

  3. 互联网大厂“自研芯片”成为最大变量:阿里平头哥真武出货量已超越寒武纪,百度昆仑芯外部收入首超内部——互联网大厂的自研芯片已从“防御性布局”升级为“进攻性武器”。它们拥有“内部客户+场景验证+资金弹药”三重优势,对独立芯片公司的威胁不容小觑。

  4. “图形GPU”和“AI加速器”的分化将加速:摩尔线程(全功能GPU)和景嘉微(图形GPU)是唯二在图形渲染领域有实质性投入和产品的公司,其余厂商本质上都是AI加速器公司。在信创桌面GPU替换需求爆发前,图形GPU路线的商业化回报可能长期低于AI加速器。

  5. “TOP 10”名单的动态性:本名单基于截至2026年6月的公开信息,未来12-18个月内,以下变量可能改变排名——燧原科技IPO后非腾讯客户拓展速度、天数智芯字节跳动大单是否落地、壁仞科技BR20X能否回归高端、摩尔线程消费级显卡能否放量、阿里平头哥独立上市进程。这份名单不是“终局”,而是“赛程中段”的一次定格快照。

9.5. 最有潜力但风险高的公司

在国产GPU/AI加速器赛道中,有一类标的让投资人“又爱又怕”——它们在技术路线、产品迭代或市场卡位上展现出成为“中国英伟达”的潜力,但供应链脆弱性、客户集中度、持续亏损、治理结构等风险因素让它们随时可能从“明日之星”沦为“时代的眼泪”。本节聚焦这些“高赔率、高不确定性”的标的,逐一剖析其潜力来源与风险本质。

9.5.1. 概览:六家“高潜力、高风险”公司的核心矛盾

公司潜力来源核心风险一句话概括
寒武纪2025年营收65亿、扭亏为盈、思元590/690性能对标A100/H100 [1]49亿存货积压、客户集中度88.66%、中芯7nm良率瓶颈、字节自研芯片威胁 [1]“最像英伟达”的公司,但产能恐慌和客户集中度像两把达摩克利斯之剑
壁仞科技BR100曾创全球算力记录、BR20X即将商业化、港股GPU第一股 [8]实体清单断供台积电、国产供应链悬而未决、BR20X能否量产是生死线 [12]技术底子最硬的“制裁幸存者”,BR20X的量产成败=企业的生死判决
摩尔线程花港架构野心极大、华山/庐山2026量产、Q1首季盈利 [17]存货+预付款45.56亿、单一供应商预付款13.22亿、供应链集中度令人窒息 [19]国产GPU最像“全栈玩家”的选手,但财务杠杆之高令人揪心
沐曦曦云C600对标H100、2026年盈亏平衡预期、科创板上市 [23]97%营收来自单一产品C500、客户名单年度换血、TSMC供应链暴露 [25]“中国AMD”的技术底子,但商业模式的稳定性堪比走钢丝
砺算科技唯一纯图形GPU创业公司、7G100已公开发售、与京东合作 [28]零营收、两度资金断链、估值从2亿到35亿的泡沫质疑 [31]最具“信仰充值”色彩的标的——要么成为中国版3dfx,要么成为下一个光荣的炮灰
象帝先三连融资完成“死而复生”、第二代伏羲架构点亮、预研4nm神农芯片 [35]对赌失败前科、20余次法院被执行人、员工欠薪未了、IPO不确定 [34]国产GPU赛道最戏剧性的“复活赛”选手,但历史的伤疤不会轻易愈合

9.5.2. 寒武纪(Cambricon)—— “最像英伟达”与“最脆弱的供应链”

潜力面:为什么它是国产AI芯片的“天选之子”

寒武纪在2025年交出了一份令整个行业侧目的成绩单:全年营收64.97亿元,同比暴增453%,归母净利润20.59亿元,实现上市以来首次年度盈利 [1]。这不是渐进式增长,而是“范式转换”级别的爆发——背后是思元590芯片在AI推理和训练市场的大规模落地,其性能对标英伟达A100,在部分推理场景能效比甚至达到H100的1.8倍 [3]

寒武纪的潜力来自三个“不可复制”的要素:

  • 先发卡位优势:在英伟达H20被迫退出中国市场后,寒武纪是少数能提供“即插即用”替代方案的厂商,2025年在政府智算中心市占率已达28% [4]
  • 思元690的架构跃迁:采用Chiplet异构集成方案,通过12nm+7nm混合封装突破制程限制,单卡算力密度较590提升400%,性能目标达到H100的80% [5]。这不仅是迭代,而是对“如何在先进制程被封锁下做出高性能芯片”这一核心命题的架构级回答。
  • 推理市场的结构性红利:随着AI应用从训练向推理倾斜,寒武纪在推理场景的能效优势有望持续放大 [6]

技术判断:寒武纪是中国最接近“AI芯片平台型公司”的选手——它有芯片(思元系列)、有框架(Cambricon Neuware)、有开发者生态(虽然远不如CUDA),这种“芯-框-用”三位一体的架构意识,是它区别于其他纯芯片设计公司的核心差异化。

风险面:三把悬在头顶的剑

第一把剑:49亿存货背后的产能恐慌

截至2025年底,寒武纪存货账面价值高达49.44亿元,同比激增178.67%,占公司总资产的36.79% [1]。更令人不安的是,2025年芯片库存量达85.7万片,而同期实际销售量仅11.7万片——产销比约1:7 [1]。公司解释为“战略性备货”,但行业观察者普遍认为,这反映的是中芯国际7nm”N+2”工艺良率仅约20%的残酷现实 [1]

产能算术题令人窒息:中芯国际7nm月产能约2万片,华为昇腾独占1.5万片,留给寒武纪、摩尔线程、壁仞科技等一众厂商的仅5000片 [1]。这意味着寒武纪必须“抢跑式囤货”——在晶圆还没流片之前就大量预订产能,否则有单无货。

第二把剑:88.66%的客户集中度与字节跳动的“背刺”

2025年,寒武纪前五大客户贡献了88.66%的营收 [1]。市场普遍认为字节跳动是最大单一客户,部分机构推测字节贡献了寒武纪近80%的核心营收 [1]。但与此同时,字节跳动已组建超过1000人的自研AI芯片团队,其中AI芯片研发人员超500人,并且正在与三星电子洽谈先进制程代工合作 [1]

这意味着寒武纪最大的客户,正在成为它最危险的竞争对手。一旦字节自研芯片成功,寒武纪不仅失去最大订单,还将面临一个“饿了么开始自己种菜”式的竞争格局。

第三把剑:研发投入断崖式下降

2025年,寒武纪研发投入占营收比重从2024年的91.3%骤降至18% [7]。同期2025年研发费用约11.7亿元,虽然绝对值仍在增长,但研发费用率的大幅下降引发市场对公司“吃老本”的担忧——在AI芯片这个“一代落后、代代落后”的赛道,降低研发强度无异于慢性自杀。

综合判断:寒武纪是国产AI芯片赛道中“如果成功,回报最大;如果失败,跌幅最深”的标的。2026年将是它的“压力测试年”——思元690能否量产、字节采购是否持续、中芯良率能否提升,三重变量叠加,任何一个方向的边际变化都可能引发估值剧烈波动。


9.5.3. 壁仞科技(Biren Technology)—— “制裁幸存者”的二次创业

潜力面:技术底子最硬的“通用GPU信仰者”

壁仞科技在2022年发布的BR100,至今仍是国产GPU芯片设计的“技术丰碑”:7nm制程,Chiplet双die设计,770亿晶体管(当时全球GPU最多),1074mm² die面积,FP32算力256 TFLOPS,INT8算力2 PFLOPS [8]。这个规格在当时直接对标甚至局部超越了英伟达A100,被业界称为“中国GPU设计能力的成人礼”。

2025年,壁仞营收突破10.35亿元(+207%),毛利率53.8%,2026年1月在港交所上市成为“港股GPU第一股”,募资约55.83亿港元(约7.17亿美元)[9]。更重要的是,其下一代旗舰BR20X计划于2026年商业化,采用第二代自研架构,全面支持FP8/FP4低精度计算,自研Blink 2.0互连协议支持千卡级集群纵向扩展,设计目标对标英伟达H200 [11]

风险面:实体清单的“慢性窒息”

壁仞科技的核心风险,不是技术不行,而是 供应链被卡住了脖子

2023年10月,壁仞科技及其13家子公司被美国商务部列入实体清单,台积电代工全面断供 [12]。原BR100/BR104采用台积电7nm 2.5D CoWoS封装,制裁后无法继续生产 [13]。公司被迫将BR100设计修改(Blink互连从8条减至7条),但最终仍无法在台积电生产,只能转向国产代工链 [13]

此后,壁仞的主力产品变为BR106/BR106C/BR106M——这些是制裁后“降规”的简化版,性能远不如原版BR100。真正的“灵魂拷问”是:BR20X如果无法获得先进制程代工,是否也会沦为“纸面旗舰”?

公司2025年存货余额达9.49亿元,同比增长520.4% [14]——这同样反映出“抢产能”的焦虑。虽然壁仞通过Chiplet技术(BR166将两颗BR106裸晶合封)部分缓解了制程限制 [来源:产品描述],但Chiplet不是万能药:它需要先进封装(Interposer/CoWoS),而这同样受制于美国设备出口管制。

综合判断:壁仞就像一个“被绑住一只手的拳击手”——技术底子好,但供应链的镣铐让它的真实战斗力大打折扣。BR20X能否在国产供应链上量产并达到设计性能,是决定其命运的“终极一考”。如果可以,壁仞将是国产GPU最具竞争力的玩家之一;如果不行,它可能沦为“PPT芯片公司”的又一个注解。


9.5.4. 摩尔线程(Moore Threads)—— “全栈野心”与“财务钢丝”

潜力面:国产GPU最像“全栈玩家”的选手

摩尔线程是国产GPU厂商中,唯一同时覆盖 消费级显卡(MTT S80/S90)、AI智算卡(MTT S4000/S5000)、万卡集群(夸娥)、智能SoC(长江)、具身智能平台 五大产品线的公司 [15]。这种“全栈”定位让它在资本市场上获得了极高的估值溢价——2025年12月科创板上市,首日市值达约2822亿元 [16]

2025年12月,摩尔线程发布第五代GPU架构“花港”,算力密度提升50%、能效提升10倍,支持FP4至FP64全精度计算和十万卡以上集群扩展 [17]。基于花港架构的两款芯片——AI训推一体“华山”和高性能图形渲染“庐山”——均计划2026年量产。其中庐山芯片宣称光线追踪性能提升50倍、3A游戏性能提升15倍,将完整支持DirectX 12 Ultimate [18]

从技术路线图来看,摩尔线程是国产厂商中迭代节奏最清晰、覆盖面最广的——如果“花港”架构成功落地,它将成为中国唯一同时具备AI训练、AI推理、图形渲染、HPC四大能力的全功能GPU厂商。

风险面:资产负债表上的“定时炸弹”

然而,这份“全栈野心”的代价,写在资产负债表的“存货+预付款”科目里。

截至2026年一季度末,摩尔线程存货21.95亿元,预付款23.61亿元,合计45.56亿元 [19]。其中,对单一供应商的预付款高达13.22亿元,占预付款的74% [19]。这意味着,摩尔线程的供应链本质上已被“锁死”在单一供应商上——极大概率是中芯国际或某家晶圆代工厂。

这种“all-in”式的供应链策略,在产能紧缺期是护城河(锁定了产能),但一旦供应商出现任何问题(良率下降、产能被挤占、地缘政治断供),摩尔线程将面临“系统性崩溃”。

此外,摩尔线程虽然在2026年Q1实现了首次单季盈利(归母净利润2936万元),但2025年全年仍亏损约10亿元,公司预计最快2027年才能实现全年盈利 [20]。这意味着未来两年它仍将处于“烧钱换规模”的阶段,而45.56亿的存货+预付款意味着巨大的资金占用和跌价风险。

综合判断:摩尔线程的“花港”架构令人兴奋,但它的商业模式是“用高杠杆赌未来”——赌的是花港芯片2026年成功量产、赌的是万卡集群订单持续放量、赌的是单一供应商不出问题。这三个“赌注”中任何一个翻车,都可能引发连锁反应。对于认同摩尔线程技术愿景的投资者,需要做好承受“极端波动”的心理准备。


9.5.5. 沐曦(MetaX)—— “中国AMD”的光荣与脆弱

潜力面:技术基因最纯正的GPU团队

沐曦的核心团队平均拥有近20年高性能GPU产品端到端研发经验,曾主导过十多款世界级GPU产品从设计到量产的完整流程(从40nm到5nm制程)[22]。这种“从沙子到芯片”的完整经验,在国产GPU创业公司中极为稀缺。

旗舰产品曦云C600基于国产供应链和自研XCORE 1.5架构,搭载HBM3e显存(带宽超3.35TB/s),性能全面对标英伟达H100,预计2025年底风险量产、2026年上半年正式量产 [23]。公司预计最早于2026年达到盈亏平衡点 [24]

风险面:商业模式的“三重单点故障”

第一重:单一产品依赖。 2024年及2025年Q1,曦云C500系列收入占主营业务收入比例分别为97.28%和97.87% [25]。一旦C500竞争力下降或C600量产延期,公司将面临“断崖式”收入下滑。

第二重:客户不稳定。 前五大客户名单年度变动剧烈:2023年的前五大客户在2024年全部消失;2024年前五大客户中仅一家进入2025年Q1名单 [26]。这种“客户年抛”现象意味着沐曦还没有建立起稳定的客户关系——每一个订单都是“一次性”的,需要持续不断寻找新客户。

第三重:供应链。 沐曦采用Fabless模式,7nm/5nm先进制程依赖台积电代工 [27]。在地缘政治加剧背景下,台积电断供风险始终存在。

综合判断:沐曦的团队技术实力毫无疑问是国产GPU第一梯队,但它的商业模式像“杂技演员走钢丝”——任何一个环节(产品、客户、供应链)出问题,都可能导致整体崩塌。C600在2026年能否成功量产并建立稳定的客户群,是决定沐曦是“中国AMD”还是“中国Transmeta”的分水岭。


9.5.6. 砺算科技(Lisuan Tech)—— 最纯粹的“图形GPU信仰”

潜力面:中国唯一专注图形渲染GPU的创业公司

在所有国产GPU创业公司中,砺算科技是定位最“纯粹”的——它不碰AI训练,不碰GPGPU,只做图形渲染GPU。首款产品7G100采用6nm制程,2025年5月回片、24小时内点亮,2026年3月正式面向公众发售Lisuan eXtreme系列显卡,已适配50余款专业应用、近百款游戏 [28]

在国产GPU普遍“重AI、轻图形”的背景下,砺算的差异化定位反而形成了独特的稀缺价值——它是中国唯一可能填补“国产独立显卡”这一空白的企业。东芯股份(688110)累计投资约4.11亿元,持股约35.87% [29]。公司与京东达成消费级和企业级市场生态合作,并与某国内领先云计算服务商签署战略合作框架协议 [30]

风险面:从“零到一”的死亡之谷

砺算科技2025年全年营收仅2.48万元,亏损4.45亿元 [31]。公司成立以来曾两度陷入资金断链危机,有7-8个月处于经营极度困难状态 [31]。估值从约2亿飙升至约35亿元,而营收为零——这种“零收入、高估值”的组合,在任何一个成熟市场都是“泡沫”的代名词 [32]

技术判断:砺算的7G100从技术参数来看,性能大致对标NVIDIA GTX 1650/RTX 2050级别,属于入门级独立显卡。创始人宣以方自己也承认,英伟达CUDA生态护城河极深,适配是最大考验 [33]。但图形GPU的市场逻辑与AI芯片不同——它不需要打败CUDA,只需要在DirectX/Vulkan等标准图形API下跑得流畅。如果砺算能在2026年实现“月销万片”级别的出货,它将成为中国图形GPU的“破局者”;如果卖不动,估值可能迅速回调至10亿以下。

一句话总结:砺算科技是国产GPU赛道中最具“信仰充值”色彩的标的——要么成为中国版3dfx(曾经开创了消费级GPU时代),要么成为下一个“光荣的炮灰”。但无论如何,它的存在本身就证明了“中国有人在认真做图形GPU”这件事。


9.5.7. 象帝先(Xiangdixian)—— “死而复生”的戏剧性标的

潜力面:三连融资完成的“复活赛”

象帝先的故事在国产GPU赛道中最为戏剧性:2024年8月因B轮融资对赌未达成5亿元目标,遭股东起诉、资金账户被冻结,召开全员会议宣布解散,400余人面临失业 [34]。然而,2024年12月宣布新一轮融资取得重大突破,2025年2月完成数亿元战略融资,2026年5月再获智路资本、钧鑫投资联合领投的新一轮融资,并签署改制上市财务顾问协议,计划2026年内完成股份制改造、全面加速IPO [35]

产品层面,已完成天钧一号(盘古)、二号(盘古)、三号(伏羲)三款GPU芯片量产,伏羲A0性能接近英伟达RTX 2070/3050级别;预研的神农A0芯片规划4nm制程,计划2027年流片 [36]

风险面:历史的伤疤不会轻易愈合

象帝先的“复活”确实令人惊叹,但以下风险让理性的投资者难以完全放心:

  • 对赌失败前科:2024年因对赌协议失败导致公司濒临解散,股东起诉、账户冻结 [34]。这不仅是“钱”的问题,更反映了公司治理结构中的深层隐患。
  • 司法纠纷缠身:截至2025年2月,公司累计登上法院被执行人名单20余次 [37]
  • 员工欠薪未了:部分离职员工欠薪补偿悬而未决 [38]
  • 产品定位尴尬:伏羲架构性能对标RTX 2070/3050,虽然不差,但在国产GPU赛道中既不是最强AI芯片(远不如华为昇腾/寒武纪),也不是最强图形GPU(面临摩尔线程庐山/砺算7G100的竞争),处于“两头不靠”的尴尬位置。

综合判断:象帝先的“复活”是国产GPU赛道韧性的体现,但从投资角度看,它需要证明的不只是“能活下去”,更是“为什么值得投资”。在摩尔线程、壁仞科技、沐曦等已上市公司的竞争下,象帝先的IPO窗口正在收窄。如果不能在2026年完成股改并交出有说服力的商业化成绩单,它可能再次面临“生死时速”。


9.5.7.1. 风险地图:六大标的的风险维度对比

风险维度寒武纪壁仞科技摩尔线程沐曦砺算科技象帝先
供应链风险🔴极高🔴极高🔴极高🟠高🟡中🟡中
客户集中度🔴88.66%🟡中等🟡中等🔴88.35%🔴零客户🟠高
持续亏损🟢已盈利🔴仍亏损🟠Q1盈利🔴仍亏损🔴零收入🔴未公开
产品单一性🟡中等🟡中等🟢多元化🔴97%单一🔴100%单一🟡中等
治理结构🟢上市公司🟢上市公司🟢上市公司🟢上市公司🟠股东承压🔴前科
制裁风险🟠实体清单🔴实体清单🟠实体清单🟡暂无🟢暂无🟢暂无
估值合理性🔴PE 280x+🟡合理🟠偏高🟠偏高🔴零收入35亿🟡未公开

9.5.7.2. 核心结论

“最有潜力但风险高的公司”这一类别,本质上是国产GPU赛道的“期权池”——它们中的某些可能在3-5年后成长为参天大树,另一些则可能被并购、边缘化甚至消失。投资者需要清醒认识到:

  1. 技术潜力≠商业成功:寒武纪的技术实力毋庸置疑,但供应链的“单点故障”可以让它的技术优势瞬间归零。
  2. 上市≠安全:摩尔线程、沐曦、壁仞科技都已上市,但上市只是融资手段,不是护城河。在国产GPU赛道,真正的护城河是“稳定量产+稳定客户+稳定迭代”三者的闭环。
  3. 图形GPU是最被低估的赛道:砺算科技虽然风险极高,但它所代表的“纯图形GPU”路线,在AI芯片热潮退去后可能成为最具壁垒的细分市场——因为图形GPU的技术复杂度(驱动、API兼容、游戏适配)远高于AI加速器,一旦形成生态,替换成本极高。
  4. “制裁幸存者”是最值得跟踪的标的:壁仞科技和寒武纪虽然承受着实体清单的直接冲击,但恰恰是这种“压力测试”在倒逼它们建立真正的国产供应链能力。如果它们能熬过这一关,将获得其他厂商无法复制的“抗制裁”壁垒。

9.6. 最值得持续跟踪的技术路线

推荐值得长期关注的技术方向(如chiplet、光互联、存算一体等)

如果说国产 GPU 厂商的竞争是“明面上的牌局”,那么底层技术路线的演进则是“牌桌下的暗流”——它决定了哪些玩家能在下一轮洗牌中留在桌上,哪些会被无声淘汰。对投资者和产业决策者而言,跟踪厂商不如跟踪路线,因为路线是超越个别公司命运的、更长周期的确定性变量。

以下六条技术路线,按 确定性由高到低、时间周期由近到远 排列。在已有分析基础上,本节结合最新产业动态,对每条路线进行更新和深化。

9.6.1. Chiplet + 先进封装:近三年最确定的技术主线

一句话判断:在先进制程被“卡脖子”的背景下,Chiplet 是国产 GPU 实现算力跨越的“唯一可规模化的技术杠杆”。

9.6.1.1. 为什么 Chiplet 对中国如此关键?

台积电 3nm 以下先进制程对中国大陆关闭,SMIC 的 N+2(等效 7nm)是当前国产 GPU 的制程天花板。但 Chiplet 提供了“曲线救国”的路径:将大芯片拆分为多个小芯粒,用成熟制程组合出接近先进制程的性能。正如 AMD Instinct MI455X 用 12 个 2nm/3nm Chiplet 实现 3200 亿晶体管规模 [69013],国产厂商正在复制这一思路。2026 年,国产 AI 芯片正从“可用”迈向“好用”的关键阶段,Chiplet 是这一跨越的核心使能技术 [68997]

9.6.1.2. 国产 Chiplet 实践现状

厂商产品Chiplet 方案关键参数
壁仞科技BR1002 颗计算 die + HBM2e,2.5D CoWoS-S770 亿晶体管,1074mm² [69070]
华为昇腾910C双 910B die + 有机基板桥接530 亿晶体管,752 TFLOPS (BF16) [69051]
寒武纪思元 690双 die 封装 + HBM3FP16 >700 TFLOPS,196GB HBM3 [69151]
寒武纪思元 3702 颗 AI 计算芯粒 Chiplet 封装国内首次 Chiplet 量产实践 [69160]

其中,壁仞 BR100 是 国内首个采用 Chiplet + 2.5D CoWoS 封装的通用 GPU,2022 年发布时直接对标 NVIDIA H100 [69076]。华为昇腾 910C 的 Chiplet 方案更为务实——将两颗成熟 910B die 通过有机基板连接,技术难度低于 NVIDIA/AMD 的硅中介层方案,但具有更低的成本和更高的国产化率 [69052]

9.6.1.3. 底层基础设施:D2D 互联 IP 和国产封装

Chiplet 成败的关键在于 Die-to-Die 互联。芯耀辉推出的 UCIe IP 在先进封装上支持 32Gbps 速率,标准封装支持 24Gbps,传输距离可达 50mm(远超 UCIe 标准协议的 25mm)[69127]。芯动科技率先推出国内首款兼容 UCIe 标准的 Chiplet 解决方案,已在先进工艺上量产验证成功 [69135]。合见工软也实现了国产首个跨工艺节点 UCIe IP 互连验证 [69133]。预计到 2026 年,D2D IP 市场有望达到 3.24 亿美元,2021–2026 年复合增长率可达 50% [69017]

在封装侧,长电科技 XDFOI 平台可实现 2μm 线宽线距的有机重布线堆叠中介层,通富微电的 2.5D 封装已通过华为昇腾 910B 验证(2024 年国产替代订单增长 53%)[69193]。2026 年中国先进封装市场规模预计达 900–1000 亿元 [69197]

9.6.1.4. 需要重点跟踪的 Chiplet 初创公司

  • 原粒半导体:专注 AI 大算力 Chiplet,采用“积木式架构”,最新一轮融资宣称“可在不依赖先进制程的情况下达到 NVIDIA 先进制程 GPU 的性能”,芯片性价比提升约一个数量级 [69014]。但需注意,该宣称目前仍处于融资阶段的技术叙事,产品尚未量产,实际性能有待验证。

9.6.1.5. 技术判断

Chiplet 路线的确定性极高,但国产 Chiplet 的真正挑战不是“能不能拼起来”,而是“拼起来之后的互联带宽和功耗是否足够”。华为 910C 的双 die 方案在芯片间互联带宽上可能低于 NVIDIA 的 NVLink-C2C 方案 [69052],这是 Chiplet 路线从“可用”到“好用”必须跨越的门槛。未来 3 年,能否从“有机基板桥接”走向“硅中介层+混合键合”的 3D 堆叠,将决定 Chiplet 路线的性能天花板。2026 年 UCIe 3.0 有望规模落地,64GT/s PHY 量产,国产 IP 在 AI 芯片中批量导入,这将是 Chiplet 路线成熟的关键里程碑 [69022]

9.6.2. 光互联(CPO/OIO):2026–2028 年最具颠覆性的互连革命

一句话判断:电互联正在成为万卡集群的瓶颈,光互联是唯一能打破这一瓶颈的技术——2026 年是 CPO 从 0 到 1 的元年。

9.6.2.1. 为什么光互联是“必选项”?

万卡 GPU 集群中,卡间通信占用了 30%–50% 的训练时间。传统铜缆互联的功耗和延迟随带宽线性增长,早已不堪重负。CPO(共封装光学)将光引擎与交换芯片/GPU 封装在同一基板上,能效提升 3.5 倍,信号完整性提升 63 倍,系统可靠性提升 10 倍 [69034]。当 AI 从“偶尔调用”变成“持续驻留”,真正的瓶颈不再是“算不动”,而是“数据搬不动”——光互联正是解决这一瓶颈的底层技术 [69266]

9.6.2.2. 全球进展

NVIDIA 在 2025 年 GTC 上发布了 Spectrum-X 和 Quantum-X 硅光网络交换机,采用 CPO 技术实现每端口 1.6Tb/s,计划 2026 年下半年供货 [69040]。NVIDIA 更在其 Rubin 架构中采用 CPO 技术突破 NVLink 限制 [69231]。Lumentum 订单爆满、Coherent 斩获头部客户大额 CPO 订单,CPO 需求已告别远期叙事,迎来确定性爆发拐点 [69042]。IDC 判断 2025–2026 年将是 CPO 试点部署的窗口期 [69037]

9.6.2.3. 国产窗口

在中国,CPO 落地可能比海外更快——因为国内 GPU 厂商都在寻求突破,更愿意尝试新技术路线 [69033]。华为、腾讯、阿里等大厂已在积极开展 CPO 设备储备和采购 [69226]。2026 年国内 1.6T 光模块将开始导入智算中心 [69043]。2024 年 9 月,国内实验室已成功将激光光源集成至硅基芯片内部,标志着国内在该项技术上取得了首次成功 [69048]

更远期来看,OIO(Optical I/O,片上光互联)将光引擎直接封装到 GPU 芯片上,实现“GPU 直接输出光信号”。这将是比 CPO 更彻底的互联革命,但预计要到 2028+ 才能规模商用。NVIDIA 已计划 2025 年下半年推出的 GB300 平台率先部署 1.6T CPO 技术 [69235],CPO 的商业化进程正在加速。

9.6.2.4. 技术判断

CPO 的确定性很高,但国产厂商在 CPO 核心器件(硅光芯片、磷化铟激光器、微环调制器)上仍高度依赖进口。Coherent 计划在 2026 年底实现内部磷化铟产能翻番,但国产替代仍需时日 [69227]。真正的“自主可控光互联”还需要 3–5 年。不过,光互联是中国在互联技术上最有可能“换道超车”的方向——因为电互联的专利和生态壁垒极高,光互联的起跑线对所有人都是新的。正如业内所言,“国内相比海外竞争对手,在商业落地上更快” [69033]

9.6.3. 存算一体(Computing-in-Memory):突破“内存墙”的长线变量

一句话判断:存算一体是理论上最能解决“数据搬运能耗”问题的架构,已写入“十五五”规划,但离大模型训练的大规模商用还有 3–5 年。

9.6.3.1. 存算一体的核心价值

传统冯·诺依曼架构中,数据在计算单元和存储单元之间反复搬运,消耗了 90% 以上的能量。存算一体通过在存储器内部直接完成计算,理论上可实现 10 倍以上的能效比提升。量子位智库预测,2025 年存算一体市场规模将达 125 亿元,2030 年达 1136 亿元 [69095]。新华网 2026 年初的深度报道也明确指出“专用集成电路、存算一体等新架构”是中国 AI 算力突破的关键路径 [69008]

9.6.3.2. 两条技术路线与代表厂商

路线存储介质代表厂商最新进展目标场景
数字存算一体SRAM后摩智能鸿途 H30(256TOPS/35W)量产;漫界 M50(2025 Q4 量产)[69088]智能驾驶、边缘推理
数模混合存算一体ReRAM亿铸科技PoC 芯片点亮,2026 年推出量产 AI 算力卡 [68992]数据中心推理、边缘计算

后摩智能的鸿途 H30 是 国内首款量产落地的存算一体大算力芯片,已获得新石器无人车、环宇智行等超 55 家客户支持 [69096]。第二代漫界 M50 于 2025 年 Q4 量产 [69119]。清华大学微电子所研究员指出,“ReRAM 因其工艺相对成熟、与 CMOS 兼容性好,是目前商业化前景最明朗的存算一体技术路线之一” [69106]

亿铸科技走的是 ReRAM 路线,2023 年点亮了基于 ReRAM 的高精度、低功耗存算一体 AI 大算力 PoC 芯片,“能效比和算力都超出预期” [69107]。计划 2026 年推出量产产品,据称基于 28nm 工艺即可实现 10 倍于传统架构的能效比 [69110]。2025 年新增了 30 项 ReRAM 相关专利 [69120]

9.6.3.3. 写入“十五五”规划

2025 年,存算一体技术被正式写入国家“十五五”规划前瞻研究,成为国家级重点技术方向 [68994]。头部科技公司正打造能兼容多种国产芯片的异构计算平台,存算一体是其中的重要组成部分 [69008]

9.6.3.4. 技术判断

存算一体的能效比优势是真实的,但当前的瓶颈在于:① SRAM 路线容量有限,难以承载千亿参数大模型;② ReRAM 路线工艺成熟度不足,量产良率仍需验证;③ 软件生态几乎为零,开发者需要学习全新的编程范式。存算一体在 边缘推理和端侧 AI 场景中确定性最高(后摩智能已证明),在 数据中心训练 场景中确定性最低——至少需要 3–5 年才能看到实质性突破。这是一个“长线变量”,适合持续跟踪,不宜短期押注。ReRAM 技术“已经到了商业应用爆发前夜”,但量产产品的实际表现仍需观察 [69110]

9.6.4. 国产 HBM 突围:算力芯片的“咽喉”

一句话判断:没有国产 HBM,所有国产 GPU 的显存带宽都将受制于人——这是国产 GPU 产业链中“最痛的一块短板”,也是最值得跟踪的突破方向。

9.6.4.1. 为什么 HBM 如此关键?

大模型训练和推理中,显存带宽往往比算力更先成为瓶颈。英伟达 H100 的 HBM3 带宽达 3TB/s,而国产 GPU 目前主要依赖 GDDR6(带宽 ~512GB/s–1TB/s),差距巨大。部分高端产品(如壁仞 BR100、寒武纪思元 690)使用 HBM2e/HBM3,但 HBM 颗粒完全依赖进口(三星/SK 海力士/美光),受美国出口管制限制 [69025]。HBM 是国内 AI 发展的胜负手,目前国产化率基本为 0 [69171]

9.6.4.2. 国产 HBM 进展

厂商技术节点关键进展预期量产时间
长鑫存储 (CXMT)HBM3已向华为交付 16nm HBM3 样品 [69173];良率超 80% [69178]2026 年初量产,2027 年 HBM3E [69165]
长江存储 (YMTC)HBM拟与长鑫存储合作开发 HBM [69166];武汉新芯 HBM 产线建设中2026–2027 年小批量 [69177]

长鑫存储的 HBM 进度是国产 GPU 产业链中最值得关注的单点事件。如果 2026 年 HBM3 顺利量产,华为昇腾、寒武纪、壁仞等厂商将获得“国产 HBM 自由”,极大缓解供应链风险。通富微电作为长鑫存储最重要的 HBM 封测合作伙伴,已具备 6 层、8 层 HBM 封测能力 [69175]。长鑫存储已突破 HBM3 技术,采用与 SK 海力士同源的 MR-MUF 封装技术,DRAM 市场份额从 3% 提升至 5%,预计 2027 年将达 10% [69178]

9.6.4.3. 技术判断

国产 HBM 的突破是“时间问题”而非“可能性问题”,但时间窗口至关重要。长鑫存储的 HBM3 即使量产后,在带宽、功耗、良率上仍将落后 SK 海力士一代以上。但对中国 GPU 产业而言,“有”和“没有”的差距远大于“好”和“更好”的差距——HBM3 国产化意味着不再被“卡脖子”,这是质变。需清醒认识到,短期的样品供应不等于长期的产业竞争力,高端设备依赖、良率稳定性提升、生态协同不足等问题,仍是悬在头顶的“达摩克利斯之剑” [69178]。美国 2024 年 12 月的管制限制了 HBM 制造和封装的关键设备,且美国半导体设备公司驻长鑫的维护人员被要求离开,这将影响其 DRAM 和 HBM 开发进度 [69180]

9.6.5. RISC-V + AI 加速器:开源架构的“第三种可能”

一句话判断:RISC-V 在 AI 加速器中的渗透率将快速增长,但短期内仍是“配角”——长期看可能成为打破 x86/ARM 双寡头的“第三极”。

9.6.5.1. 为什么 RISC-V 适合 AI 加速?

RISC-V 的开放性和可定制性使其天然适合 AI 加速器中的控制核和协处理器。英伟达早在 2016 年就将 RISC-V 控制器用于 GPU 内部,2025 年更宣布正在推进 CUDA 向 RISC-V 架构的移植 [69224]。据预测,到 2030 年 RISC-V 在 AI 加速器中的占比有望突破 50%,用于 AI 加速器的 RISC-V SoC 出货量将达 41 亿颗 [69216]

9.6.5.2. 国产 RISC-V AI 芯片生态

  • 奕斯伟(王东升创立):EIC77 系列芯片集成 3D 图形加速和 AI 加速器,基于 RISC-V 架构,定位边缘计算和 AI PC [69209]
  • 希姆计算:推出基于 RISC-V 矩阵扩展指令集的行业智能体解决方案 [69212]
  • RISC-V 并行计算领航创新联盟:2025 年成立,由清微智能、中国科学院软件研究所、清华大学、阿里达摩院等联合发起,旨在打造基于 RISC-V 的并行计算生态 [69208]

9.6.5.3. 上海:RISC-V 产业重镇

上海将 RISC-V 列为重点产业方向,2025 年提出“开源大模型 + 开源架构芯片”组合实现 AI 产业链自主可控 [69223]。业界认为,凭借“开源大模型+开源架构芯片”的组合,国内有望实现 AI 产业链自主可控。

9.6.5.4. 技术判断

RISC-V 在 AI 加速器中最有前景的角色不是“替代 GPU”,而是“替代 GPU 中的 ARM/x86 控制核”以及“边缘 AI 推理的轻量级 SoC”。短期内(3 年内),RISC-V 不会成为 AI 训练的主力架构;但长期看(5–10 年),RISC-V + 开源 AI 框架的组合有可能形成全新的技术栈,对 NVIDIA 的 CUDA 生态形成“绕道竞争”。这一路线的最大不确定性在于生态碎片化——RISC-V 的“自由”同时意味着“分散”,需要强有力的联盟或标准组织来统一。RISC-V 并行计算领航创新联盟的成立是一个积极信号,但生态建设仍需时间 [69208]

9.6.6. CUDA 兼容 / 替代路线:短期务实,长期存疑

一句话判断:CUDA 兼容路线是国产 GPU 商业化的“速效救心丸”,但不是“长治久安之策”——NVIDIA EULA 限制和性能损失是长期隐患。

9.6.6.1. 当前实践

摩尔线程的 MUSA/MUSIFY 是国产 CUDA 兼容路线的标杆:通过 MUSIFY 工具自动将 CUDA 代码转换为 MUSA 代码,解决 90% 以上的语法兼容问题 [69254]。但会有 10%–20% 的性能损失,且新算子适配滞后 [69261]。海光 DCU 的 ROCm 兼容路线同理——利用 AMD 开源的 ROCm 生态,通过 Hipify 工具实现 CUDA 代码迁移。

9.6.6.2. 法律风险

NVIDIA 已在 CUDA 11.6 EULA 中明确禁止以转译模拟方式兼容 CUDA [69245]。摩尔线程声明 MUSA/MUSIFY 与 CUDA 无依赖关系,不涉及 EULA 条款 [69264]。但这一法律风险的“灰色地带”始终存在。

9.6.6.3. 技术判断

CUDA 兼容路线是当前阶段国产 GPU 获取开发者最现实的路径——没有之一。但长期来看,这条路有三个致命局限:① 始终落后 NVIDIA 一代(先有 CUDA 新特性,再兼容);② 性能损失不可避免(翻译层开销);③ 法律风险悬而未决。真正值得跟踪的是 是否有一家国产厂商能构建出“超越兼容”的独立生态——华为 CANN 是目前最接近这个目标的,但它的“封闭性”又限制了生态扩散速度。很多国产厂商通过层层转译来兼容 PyTorch/CUDA 代码,虽能让客户快速上手,但长期依赖此路径难以形成真正的技术壁垒 [69263]

9.6.7. 综合评估:六条路线的确定性 × 影响力矩阵

技术路线确定性影响力时间周期核心跟踪标的风险等级
Chiplet + 先进封装⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐已落地–2028壁仞/华为/寒武纪/长电/通富
光互联 CPO/OIO⭐⭐⭐⭐⭐⭐⭐⭐⭐2026–2030中际旭创/光迅/华为光电
国产 HBM⭐⭐⭐⭐⭐⭐⭐⭐⭐2026–2028长鑫存储/长江存储/通富
存算一体⭐⭐⭐⭐⭐⭐⭐2026–2030后摩智能/亿铸科技
RISC-V AI 加速⭐⭐⭐⭐⭐⭐2026–2032奕斯伟/希姆计算/赛昉
CUDA 兼容/替代⭐⭐⭐⭐⭐⭐⭐已落地,长期存疑摩尔线程/海光 DCU

打分说明:确定性 = 技术成熟度 + 产业链配套 + 政策支持的综合判断;影响力 = 若成功对产业格局的颠覆程度;时间周期 = 从当前到规模商用的预期窗口。


9.6.8. 小结:投资者应该押注什么?

  • 短期(1–2 年):Chiplet + 先进封装是确定性最高的投资主线,直接受益标的包括先进封装(长电科技、通富微电)、D2D IP(芯耀辉、芯动科技)、以及深度采用 Chiplet 的 GPU 厂商(华为昇腾、寒武纪、壁仞)。2026 年国产先进封装市场规模预计达 900–1000 亿元,是明确的增量市场 [69197]
  • 中期(2–4 年):国产 HBM 和 CPO 光互联是两大“必破之局”,一旦突破将带来质的飞跃。重点关注长鑫存储 HBM3 量产节点(2026 年初)和华为 CPO 试点部署进展。CPO 产业正加速从技术验证迈入规模化商用阶段,2026–2027 年将实现规模上量 [69042]
  • 长期(5 年以上):存算一体和 RISC-V 是“颠覆性变量”,可能在 2030 年前后重塑 AI 芯片架构范式。但短期不宜重仓,适合作为“期权”持续跟踪。存算一体在边缘推理场景的确定性远高于数据中心训练场景。

最重要的一个判断:未来 3–5 年,中国 GPU 产业的竞争将从“单芯片性能竞赛”转向“系统级能力竞赛”——Chiplet 互联、光互联、HBM 带宽、软件栈这些“系统级能力”将比单一芯片的纸面算力更能决定胜负。这也是为什么跟踪技术路线比跟踪个别厂商更为重要。核心矛盾已从单一芯片的纸面参数竞争,转向万卡级集群的互联瓶颈突破,最终目标是提升模型算力利用率(MFU)[69003]

10. 术语解释

  • GPU:图形处理器,本文主要指既能承担图形渲染,也能通过并行计算能力支撑 AI、HPC 等工作负载的处理器。
  • GPGPU:通用 GPU 计算路线,强调用 GPU 执行非图形类通用并行计算任务,是 CUDA 生态长期积累的核心方向。
  • AI 加速器 / NPU / ASIC:面向 AI 训练或推理负载优化的专用芯片,通常牺牲部分通用性换取能效比、成本或系统集成优势。
  • CUDA:NVIDIA 的 GPU 编程平台和软件生态。本文把 CUDA 兼容能力视为国产芯片降低迁移成本的重要变量。
  • CANN / MindSpore / NeuWare / MUSA / MXMACA:国产 AI 芯片厂商围绕自家硬件构建的软件栈或开发平台,决定模型迁移、算子适配与性能调优难度。
  • HBM:高带宽存储器,是高端 AI 芯片提升显存带宽和训练效率的关键器件,也是国产高端算力供应链的重要瓶颈。
  • 先进封装 / CoWoS / Chiplet:将计算芯片、HBM 与互联结构高密度集成的封装技术路线,影响高端 AI 芯片的带宽、功耗、良率与产能。
  • MFU:模型浮点利用率,用于衡量大模型训练中实际算力利用效率。本文将其作为评估集群软件栈成熟度的重要指标。
  • 智算中心:以 AI 训练、推理和大规模模型服务为核心负载的数据中心,是国产 AI 加速器当前最重要的需求来源之一。
  • 信创:信息技术应用创新,本文语境下主要指党政军、央国企和关键行业对自主可控软硬件体系的采购与替代需求。