LLM 推理专用 ASIC 全景分析
从架构、存储、软件生态到产业格局,系统梳理 2025-2026 年 LLM 推理专用 ASIC 的技术路线与商业判断。
系统梳理中国国产 GPU 与 AI 加速器产业的厂商梯队、技术路线、生态差距、应用场景与未来淘汰赛格局。
2025年是中国国产AI加速器市场的 分水岭之年。据IDC数据,2025年中国AI加速卡总出货量约400万张,其中国产厂商合计出货约165万张,市场份额首次突破四成,达 41% [1]。NVIDIA在华份额从2022年的85%骤降至2025年的55%(约220万张),三年内丢掉约40个百分点 [4]。AMD出货约16万张,占比约4% [1]。
按销售额口径,海外投行Bernstein报告显示,2025年华为昇腾以约102.68亿美元销售额占据国内AI加速器市场约40%份额,与NVIDIA(约101.98亿美元)基本持平,断层领先 于其他国产厂商 [6]。国产AI芯片整体销售额从2024年的60亿美元增长至160亿美元,增速达112%,几乎是国外芯片的三倍 [7]。
核心判断:市场已从”英伟达绝对垄断”演变为”英伟达(55%)+ 华为昇腾(20%)+ 其他国产(21%)“的三层结构。但注意,这41%的国产份额高度集中于华为——若剔除华为,其余十余家国产厂商合计出货约84万张,仅占约21%,市场集中度极高。
国产替代呈现明显的 “场景梯度” 特征:
推理侧——已进入规模化替代阶段。 2025年国产AI芯片在推理场景的渗透率最高,尤其是政企AI服务器、运营商智算中心和互联网推理业务。中国移动2025-2026年AI推理服务器集采中,昆仑芯在三个标包分别拿到70%、70%、100%份额,中标金额达十亿级 [8]。寒武纪、华为昇腾、海光DCU等已在运营商、金融、能源等关键行业实现规模化部署 [9]。瑞穗证券报告指出,华为昇腾910C的推理成本仅为H100的约10% [10]——在推理场景中,性价比优势已开始超越生态壁垒的制约。
训练侧——2026年被定义为”国产训练落地元年”。 大模型预训练对芯片的算力、显存带宽、卡间互联和集群稳定性要求极高。截至2025年底,绝大多数大模型基座训练仍依赖NVIDIA,国产芯片主要用于微调、后训练和垂直场景训练 [11]。但转折点已出现:DeepSeek于2025年首次披露针对国产芯片的专项优化 [11];华为昇腾910C在FP16算力上达到800 TFLOPS,已接近H200水平 [12];摩尔线程S5000实现千卡集群部署,效率据称超过同等规模国外同代系GPU集群 [13]。大量智算中心采用”异构部署”策略:NVIDIA承担核心基座训练,国产芯片承担推理、微调与垂类任务 [11]。
图形渲染——国产化率最低的短板。 真正具备完整图形渲染管线(Graphics Pipeline)的国产GPU厂商极少,仅摩尔线程(全功能GPU路线)、景嘉微(军用显控+信创桌面)、芯瞳半导体(信创桌面)等少数几家。在消费级3A游戏、专业图形工作站(CAD/CAE/CG)领域,国产GPU基本处于空白状态。摩尔线程的”庐山”系列专攻高性能图形渲染,光线追踪性能提升目标50倍,但仍在研发阶段 [14]。景嘉微JM9230等对标NVIDIA低端显卡,仅满足党政军办公和简单3D渲染需求 [14]。
国产AI芯片在硬指标上已取得显著突破 [15]:
| 维度 | 当前水平 | 与国际差距 | 代表产品 |
|---|---|---|---|
| 峰值算力(FP16) | 旗舰产品达H100的60-70% | 约1-2代 | 昇腾910C、壁仞BR100 |
| 显存容量 | 64-128GB HBM2e/HBM3 | 接近H100(80GB),落后H200(141GB) | 昇腾910C (128GB) |
| 显存带宽 | 最高3.2TB/s | 接近H100(3.35TB/s),落后B200(8TB/s) | 昇腾910C |
| 制程工艺 | 7nm为主(SMIC N+2) | 落后台积电4nm约2代 | 多数国产芯片 |
| 卡间互联 | 自研互联方案,带宽低于NVLink | 差距明显 | 华为HCCS等 |
| 集群规模 | 万卡级别已实现 | 接近实用水平 | 昇腾、摩尔线程 |
架构师判断:国产芯片的”纸面算力”已不差,真正的差距在 算力利用率(MFU)。以千亿参数大模型训练为例,NVIDIA H100集群的MFU可达50-60%,而多数国产芯片集群的MFU仍在30-40%区间——这并非硬件问题,而是 软件栈成熟度 的映射。
软件生态是国产GPU/AI芯片当前最核心的瓶颈,具体表现为:
关键判断:软件生态追赶所需时间远超硬件追赶。硬件迭代可以”大力出奇迹”,但生态建设需要开发者社区、工具链、文档、开源项目的长期积累。未来3-5年,软件生态的成熟度将决定哪些厂商能活下来。
中国国产AI芯片产业已形成 GPGPU路线 与 ASIC/NPU路线 两大阵营 [18]:
| 阵营 | 代表厂商 | 优势 | 劣势 |
|---|---|---|---|
| GPGPU路线 | 海光DCU、沐曦、摩尔线程、壁仞、天数智芯 | CUDA兼容度高,迁移成本低,通用性强 | 专利壁垒、制程受限、功耗较高 |
| ASIC/NPU路线 | 华为昇腾、寒武纪、昆仑芯、平头哥、燧原 | 性能密度高,功耗低,全栈自研 | 生态封闭,迁移成本高,灵活性差 |
GPGPU阵营的核心逻辑是”降低迁移成本”——通过兼容CUDA生态(海光ROCm、沐曦MXMACA、摩尔线程MUSA)让客户以最低代价从NVIDIA切换。ASIC阵营的核心逻辑是”极致性能密度”——通过专用架构在特定场景实现最优性价比。
2026年,国产AI芯片呈现”一超多强”格局 [20]:
除华为(非上市主体)、寒武纪(2025年扭亏为盈)和海光信息(持续盈利)外,其余国产GPU厂商均处于大额亏损:
三年来,摩尔线程、沐曦、壁仞三家累计研发投入分别约¥38亿、¥22亿、¥27亿 [26]。高研发投入是行业共性,但毛利率普遍在50-65%区间(壁仞因从定制化转向标准化销售,毛利率从76.4%降至31.9% [27]),短期内难以通过规模效应实现盈利。
投资人视角:2025-2026年的IPO潮(摩尔线程、沐曦科创板,壁仞、天数智芯港股)为行业注入了宝贵的资本弹药,但”融资-研发-亏损-再融资”的循环不可持续。市场将在2027-2028年迎来第一轮淘汰赛——届时,能否实现经营性现金流转正 将是分水岭。
全国已建成万卡智算集群42个,智能算力规模超1590 EFLOPS [28]。2025年至少有222个亿元以上算力基建项目 [29]。但部分早期建设的智算中心存在 国产芯片闲置率高达80% 的问题 [30],核心原因在于软件生态不成熟导致”有卡用不起来”。2025年已出现智算中心建设”点刹”信号 [30]——从”铺量”转向”提质”。
| 维度 | 判断 | 置信度 |
|---|---|---|
| 市场规模 | 2025年国产AI加速卡出货165万张,占41%份额 | 高(IDC数据) |
| 国产替代进度 | 推理已规模化,训练刚破冰,图形基本缺位 | 高 |
| 硬件成熟度 | 旗舰产品达H100的60-70%,制程落后约2代 | 高 |
| 软件成熟度 | 最大短板,迁移成本高,MFU偏低,统一生态缺失 | 高 |
| 竞争格局 | ”一超多强”,华为断层领先,中小企业面临淘汰赛 | 中高 |
| 盈利能力 | 除寒武纪/海光外全行业亏损,2027-2028为关键窗口 | 中高 |
| 智算中心 | 最大需求驱动力,但存在闲置泡沫,正从”铺量”转向”提质” | 中 |
按商业化规模、技术能力将厂商分为第一梯队、第二梯队、新兴潜力层
若将国产GPU/AI加速器赛道比作一场马拉松,2025-2026年已跑过”海选淘汰”阶段,进入 梯队分化明显的”中途跑”。基于2025年及2026年Q1的最新公开数据,我们按 商业化规模(营收/出货量) 与 技术能力(芯片架构、软件栈、集群能力) 两个维度,将国产厂商划分为三个梯队。需要说明的是,分层并非”定终身”——第二梯队内部差距极小,2027年前后大概率出现剧烈洗牌。
我们采用 “双轴四象限” 框架,对每家厂商同时评估:
| 评估维度 | 核心指标 | 权重 |
|---|---|---|
| 商业化规模 | 年营收、出货量、市场份额、客户集中度、在手订单 | 50% |
| 技术能力 | 芯片架构自研度、制程先进性、软件栈成熟度、集群能力(万卡级)、生态兼容性 | 50% |
在此基础上,结合 战略资源禀赋(股东背景、上市地位、国资支持)和 成长性(营收增速、亏损收窄趋势、产品路线图),进行综合定档。
第一梯队的核心特征:年营收超50亿元(或出货量超10万片),具备从芯片→互联→软件→集群的全栈能力,已在万卡级智算中心实现规模化部署,客户覆盖头部互联网和运营商。
| 厂商 | 2025年营收/出货 | 核心壁垒 | 生态位 |
|---|---|---|---|
| 华为昇腾 | 营收~$75-102亿/出货81.2万张 | 全栈自研(达芬奇+CANN+MindSpore+HCCS),20+城市智算中心79%份额 | 国产绝对龙头 |
| 海光信息 | 营收¥143.77亿/DCU出货~8.25万张 | x86 CPU+DCU双轮驱动,类CUDA生态,深算三号算子覆盖度>99% | GPGPU阵营领军 |
| 寒武纪 | 营收¥64.97亿/出货~11.6万张 | 自研MLU架构,首个全年盈利的纯云端AI芯片企业,字节跳动大单锁定 | AI加速器标杆 |
华为昇腾 的断层领先地位几乎不可撼动——2025年单独占据国产AI加速卡出货量的约49%(81.2万张/165万张),以约40%的销售额份额与NVIDIA在中国市场形成”双寡头” [3103]。其达芬奇架构已迭代至第三代,自研HBM首次在950PR上实现突破,CANN生态开发者达400万,是 唯一具备与NVIDIA正面竞争全栈能力的国产厂商 [3041]。
海光信息 的独特优势在于”CPU+DCU”协同——深算系列DCU兼容ROCm生态,算子覆盖度超99%,已适配365款主流大模型,对从NVIDIA迁移的客户而言迁移成本最低 [3000]。2025年营收143.77亿元(同比+56.92%),2026年Q1延续68%高增速,是国产GPU赛道上 财务基本面最健康的上市公司 [3198]。
寒武纪 以纯AI芯片路线走通商业化闭环——2025年营收64.97亿元(+453%),归母净利润20.59亿元,成为 首个实现全年盈利的国产云端AI芯片企业 [3237]。思元590在字节跳动等大客户实现规模化落地,2026年Q1营收28.85亿元(+160%),增长惯性强劲 [3392]。但需注意,寒武纪走的是ASIC/NPU路线,并非传统GPU,其通用性和生态开放性弱于GPGPU阵营。
架构师判断:第一梯队的”入场券”不是某款芯片的纸面算力,而是 万卡集群的稳定交付能力。华为昇腾的Atlas 900 A3超节点已交付超300套,寒武纪参与中国移动哈尔滨智算中心(1.8万张加速卡),海光DCU已在超算场景验证——这些”集群级”能力是第二梯队短期内难以跨越的壁垒。
第二梯队的核心特征:年营收在5-50亿元区间,已实现芯片量产和初步商业化,多数已上市或已递表,正处于”用资本弹药换技术和市场”的关键窗口期。这一层内部差距极小,2026-2027年将是决定”谁升入第一梯队、谁被边缘化”的分水岭。
| 厂商 | 2025年营收 | 上市情况 | 市值(约) | 核心看点 |
|---|---|---|---|---|
| 沐曦 | ¥16.44亿 | 2025.12科创板 | ~2393亿 | 营收最高,毛利率56.51%,全国产工艺C600 |
| 摩尔线程 | ¥15.05亿 | 2025.12科创板 | ~2820亿 | 全功能GPU,“中国版英伟达”,夸娥万卡集群 |
| 壁仞科技 | ¥10.35亿 | 2026.1港股 | ~900亿港元 | 高端训练芯片BR20X,OCS光交换机 |
| 天数智芯 | ¥10.34亿 | 2026.1港股 | ~484亿港元 | 出货量国产GPU四小龙第一(3.8万片),客户最分散 |
| 厂商 | 2025年营收 | 上市情况 | 市值(约) | 核心看点 |
|---|---|---|---|---|
| 燧原科技 | ¥9.90亿 | 2026.6过会(科创板) | IPO预期400-600亿 | 腾讯占83.79%营收,2026H1预期追平2025全年 |
沐曦 在第二梯队中营收规模领先(16.44亿元),毛利率最高(56.51%),亏损收窄幅度最大(44.53%),盈利路径最清晰 [3497]。其曦云C600采用全国产工艺,在供应链自主可控上具有独特优势 [3493]。
摩尔线程 以”全功能GPU”路线独树一帜——MUSA架构同时支持AI训练推理和图形渲染,MTT S5000在DeepSeek 671B推理上斩获国产GPU纪录(Prefill >4000 tokens/s),夸娥万卡集群MFU达60% [3297]。2026年Q1实现单季归母净利润2936万元,成为四小龙中首个季度盈利的企业 [3334]。但前五大客户占比91.36%,客户集中度风险突出 [3033]。
壁仞科技 以BR100系列的高算力密度和OCS光交换机方案为差异化武器,2025年营收增速达207%,但研发费用率高达142.6%,短期内盈利压力最大 [3484]。
天数智芯 的客户结构最健康(前五大客户降至38.6%),推理业务同比增长238.2%,出货量在四小龙中领先(3.8万片),是”最不依赖单一客户”的国产GPU企业 [3592]。
燧原科技 深度绑定腾讯生态(83.79%营收来自腾讯),2026年H1营收预期10.6-11.5亿元(同比+258%~289%),增速在第二梯队中最猛。但单一客户依赖度极高,腾讯若切换供应商将带来断崖式风险 [3541]。
架构师判断:四小龙的估值逻辑目前仍以”赛道溢价”为主——沐曦
2393亿市值对应2025年PS约145倍,摩尔线程2820亿对应PS约188倍。这种估值水平隐含了市场对”国产替代”的极高预期,但也意味着 任何商业化不及预期都会被剧烈修正。2026-2027年,谁能率先实现扣非净利润转正,谁就能在估值上获得”从PS到PE”的切换支撑。
| 厂商 | 2025年数据 | 生态位 | 关键变量 |
|---|---|---|---|
| 阿里平头哥 | 出货~26.5万张/真武累计56万片 | 国产第二出货量,Qwen大模型深度绑定 | 是否独立上市?外部客户能否持续扩大? |
| 昆仑芯(百度) | 营收预估¥35-50亿/出货~6.9万→13万张 | 中国移动十亿级集采中标,万卡集群点亮 | A+H两地上市能否兑现?外部客户占比能否突破50%? |
阿里平头哥和昆仑芯的特殊性在于:它们背靠互联网巨头,在”内部市场”保障了基本盘,但也面临”外部客户是否信任竞争对手旗下芯片”的拷问。
平头哥 的真武系列已累计出货超56万片,2025年出货量26.5万张,在国产厂商中仅次于华为昇腾 [3794]。真武M890以144GB显存和800GB/s片间互联带宽对标高端竞品,且外部客户已超400家(含小鹏、比亚迪、国家电网等),超过60%算力服务于外部商业化客户 [3787]。平头哥若独立上市,将成为第一梯队的有力冲击者。
昆仑芯 2025年营收预估35-50亿元,已秘密递表港交所并启动科创板辅导,冲刺A+H两地上市 [3731]。中国移动2025-2026年AI推理服务器集采中,昆仑芯在三个标包均排名第一,份额分别达70%、70%、100% [20]——这是国产AI芯片在运营商市场的标志性突破。M100/M300均基于国产供应链,摆脱海外流片依赖,在中美博弈背景下具有战略价值 [3767]。
| 厂商 | 2025年营收 | 核心赛道 | 独特优势 |
|---|---|---|---|
| 景嘉微 | ¥7.20亿 | 军用显控+信创桌面GPU | A股唯一GPU上市公司,信创GPU市占率~25% |
景嘉微 是国产图形GPU赛道上的稀缺标的——JM9系列在信创市场市占率约30%,JM11系列已进入小批量交付,2025年航天端芯片交付量突破10万片 [3851]。但其营收规模仅7.20亿元且连续两年亏损,AI/HPC领域竞争力有限,芯片业务毛利率一度低至15.08% [4056]。景嘉微的价值在于”信创GPU的确定性”——2027年央企100%国产替代目标为其提供了明确的政策驱动增长空间 [25]。
第三梯队的核心特征:已实现芯片流片或量产,但营收规模极小(<5亿元)或尚未盈利,处于”技术验证→规模化商业落地”的跨越期。这一层是”高风险高回报”区——技术路线正确者可能实现非线性增长,但多数企业面临资金链压力。
| 厂商 | 最新进展 | 商业化阶段 | 核心看点 | 主要风险 |
|---|---|---|---|---|
| 瀚博半导体 | SG100全功能GPU量产,估值105亿,完成IPO辅导 | 规模化落地 | 阿里+快手+联发科股东,SV100/SG100双线量产 | IPO进度不确定 |
| 象帝先 | 伏羲A0(5nm)2026Q1量产,性能接近RTX 2070 | 天钧系列已出货,伏羲刚量产 | 5nm工艺突破,国产图形GPU稀缺标的 | 曾濒临解散,资金链脆弱 |
| 砺算科技 | 7G100(6nm)2026年3月发售即断货,A轮估值35亿 | 首批订单交付,消费级需求旺盛 | 全自研TrueGPU架构,消费级GPU稀缺标的 | 累计融资<6亿元,零营收 |
| 芯动科技 | 风华3号2025年9月发布,自盈利,不依赖融资 | 已签约规模采购 | 200+次先进工艺流片经验,RISC-V集成 | 产品发布时间晚,仍需市场验证 |
| 登临科技 | Goldwasser系列量产,已获数万片订单 | 多行业规模化落地 | GPU+架构,国内首个规模化落地通用GPU | 传2026年赴港IPO,尚无正式确认 |
| 芯瞳半导体 | 第二代GB2062已量产,第三代GB3000计划2026Q3流片 | 小规模出货,年营收5078万元 | 大胜达5.5亿元入股,信创GPU第二梯队 | 净资产为负,资不抵债 |
架构师判断:第三梯队中,砺算科技 和 象帝先 最值得关注——前者是中国唯一专注消费级图形GPU的厂商(7G100断货说明市场存在真实需求缺口),后者以5nm伏羲架构实现了国产图形渲染GPU的工艺突破。但两者均面临资金链紧张的共同困境——砺算累计融资不到6亿元,象帝先2024年因对赌失败一度濒临解散 [3904]。半导体行业是”烧钱”的游戏,没有足够的资本弹药,技术再好的团队也难以走到终点。
瀚博半导体 和 登临科技 在第三梯队中相对稳健——瀚博估值105亿元、完成IPO辅导,全系列产品已量产;登临是国内首个实现规模化商业落地的通用GPU企业,GPU+架构兼容CUDA/OpenCL [4007]。两者有望在2026-2027年通过IPO跃升至第二梯队。
第一梯队(百亿营收 / 全栈能力)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
华为昇腾(40%份额) >>> 断层领先 <<<
海光信息(¥143.77亿营收) | 寒武纪(¥64.97亿营收,扭亏为盈)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
第二梯队(10-50亿营收 / 已上市或已过会)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
┌─────────────────────────────────────────────────┐
│ GPU四小龙:沐曦 │ 摩尔线程 │ 壁仞 │ 天数智芯 │ 燧原 │
│ 互联网系: 阿里平头哥(出货26.5万张)│ 昆仑芯(¥35-50亿) │
│ 细分龙头: 景嘉微(信创GPU ~25%市占率) │
└─────────────────────────────────────────────────┘
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
第三梯队(营收<5亿 / 技术验证通过,商业化早期)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
瀚博半导体 │ 象帝先 │ 砺算科技 │ 芯动科技 │ 登临科技 │ 芯瞳半导体
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
从第三梯队跃升至第二梯队,需要 至少一款芯片量产且形成规模营收(>5亿元);从第二梯队跃升至第一梯队,需要同时拿到三把钥匙:
以此标准衡量,第二梯队中尚无厂商完全满足上述三条。沐曦的营收规模最大、亏损收窄最快,但尚未实现万卡集群的稳定商业交付;摩尔线程的夸娥万卡集群已商业化落地,且2026年Q1实现单季归母净利润转正,但扣非净利润仍未转正、客户集中度过高 [3334]。2026-2027年将是”三把钥匙”的争夺战。
阿里平头哥和昆仑芯的营收/出货量已接近第一梯队门槛,但被归入第二梯队的原因是:它们尚未证明在”脱离母公司输血”后仍能独立成长。平头哥的外部客户占比已超60%,昆仑芯正通过中国移动等大单加速外部化——两者一旦完成独立上市,将有资格进入第一梯队讨论。
2025-2026年的IPO潮加剧了层级固化——已上市企业获得了数十亿乃至上百亿的资本弹药(摩尔线程募资80亿元,沐曦募资39亿元,壁仞募资~54亿港元),而未上市企业(尤其是第三梯队)面临融资渠道收窄的困境 [3121]。资本差距正在转化为研发投入差距,进而转化为技术和市场的差距——这是半导体行业”强者恒强”的底层逻辑。
需要特别指出:“国产GPU”这个标签在统计口径上存在严重混淆。上述厂商中,严格意义上的”GPU”(具备完整图形渲染管线+通用计算能力)仅有摩尔线程、景嘉微、芯动科技、砺算科技、象帝先、芯瞳半导体等少数几家。华为昇腾、寒武纪、昆仑芯、燧原、登临走的是AI加速器/NPU路线,海光DCU、沐曦、壁仞走的是GPGPU路线(侧重通用计算,图形能力弱或缺失)。
如果剔除AI加速器和GPGPU,仅看严格意义上的”图形GPU”——国产厂商的合计市场份额可能不到整个”国产GPU/AI加速器”市场的5%。“国产替代”在图形渲染领域的真实进展,远逊于AI计算领域。这一问题将在后续章节中深入展开。
提炼最具投资价值和技术代表性的企业
在前述章节已系统性梳理了行业格局与分层逻辑,本章聚焦于 提炼最具投资价值和技术代表性 的企业。以下名单基于”商业化规模×技术壁垒×生态潜力×财务健康度”四维交叉筛选,而非简单按出货量或营收排序。
筛选逻辑:一家公司进入”最值得关注”名单,要么是已经在商业化上跑通了闭环,要么是在技术路线上具有不可替代的卡位价值,要么是两者兼有。纯粹的概念炒作和”PPT造芯”不在考虑之列。
这5家公司已具备规模化营收、明确的客户验证和相对清晰的成长路径,是当前国产GPU/AI加速器赛道中 确定性最强 的资产。
| 序号 | 公司 | 核心标签 | 2025年营收 | 上市状态 | 入选理由 |
|---|---|---|---|---|---|
| 1 | 华为昇腾 | 国产AI芯片绝对龙头 | ~$102.68亿(Bernstein估算)[6] | 非上市(华为体系内) | 2025年出货81.2万张,占国产份额49% [1];Bernstein预计2026年市场份额升至50% [4380];昇腾950系列已发布,FP16算力达1PFLOPS [4379];DeepSeek V4全面换装昇腾 [4382];字节跳动2026年采购订单超400亿元 [4384] |
| 2 | 海光信息 | CPU+DCU双轮驱动 | ¥143.77亿(+56.92%)[4359] | 科创板(688041) | 国内唯一x86兼容CPU+类CUDA生态DCU,2025年归母净利润¥25.45亿,是国产算力芯片中 唯二持续盈利的公司 [4359];深算三号已量产,深算四号研发中 [4374] |
| 3 | 寒武纪 | 首个盈利的纯AI芯片企业 | ¥64.97亿(+453.21%)[4338] | 科创板(688256) | 上市以来首次全年盈利,归母净利润¥20.59亿 [4338];2026Q1营收¥29亿(+160%),净利润¥10亿(+185%)[4350];思元系列在运营商、互联网实现规模化部署,已与DeepSeek深度合作 [4382] |
| 4 | 昆仑芯 | 百度系AI芯片+运营商市场突破 | ~¥20亿+(2025年)[4495] | 港股交表(拟2027年IPO)[4513] | 中标中国移动2025-2026年AI推理服务器集采,三个标包分别拿下70%/70%/100%份额,十亿级订单 [4498];摩根大通预测2026年营收可达¥83亿 [4504];P800已点亮3万卡集群 [4506] |
| 5 | 阿里平头哥 | 云芯一体+全栈自研 | 未单独披露(真武系列累计出货56万片)[4527] | 非上市(阿里体系内) | 真武810E性能对标H20 [4517];真武M890已发布,144GB显存,性能为810E的3倍 [4519];外部客户超400家,覆盖小鹏、比亚迪、国家电网等 [4522];IDC数据显示2025上半年国产AI芯片份额第二 [4522] |
架构师注:华为昇腾和平头哥的真正优势不在于单卡算力,而在于 系统级能力——从芯片到互联到框架到集群的全栈控制力。昇腾384超节点(384颗910C全对等互联,算力300PFLOPS)已在性能上接近NVIDIA GB200 NVL72的两倍 [4381]。这种”以系统补单点”的策略,是目前唯一能与NVIDIA在集群层面正面较量的国产方案。
这5家公司已实现产品量产和初步商业化验证,但尚未盈利或盈利不稳定。它们的共同特征是 技术路线差异化明显,一旦突破盈亏平衡点,市值弹性极大。
| 序号 | 公司 | 核心标签 | 2025年营收 | 上市状态 | 入选理由 |
|---|---|---|---|---|---|
| 6 | 摩尔线程 | 国产唯一全功能GPU | ¥15.05亿(+243%)[4417] | 科创板(688795) | 国内唯一覆盖图形渲染+AI计算+视频处理的量产全功能GPU [39];2026Q1扭亏为盈,净利润¥2936万 [4434];2026年3月签下¥6.6亿夸娥智算集群大单 [4416];MUSA软件栈兼容CUDA生态 |
| 7 | 壁仞科技 | 算力指标突出+港股GPU第一股 | ¥10.35亿(+207%)[4405] | 港交所(2026年1月上市)[4412] | BR100系列FP16算力达1024 TFLOPS(纸面数据亮眼)[43];BIRENSUPA平台兼容CUDA,支持100+主流AI框架 [4398];已在中国电信千卡集群实现30天连续训练不中断 [4398];2025年推出国内首个光互连超节点”光跃LightSphere X” [4398] |
| 8 | 沐曦 | CUDA兼容度最高+AMD团队 | 2022-2025Q1累计¥11.17亿 [4419] | 科创板(688802,2025年12月上市)[4446] | 核心团队来自AMD,对GPGPU架构和ROCm生态理解最深 [46];曦云C600已量产,C700研发中(投资¥20.4亿)[4445];MXMACA软件栈对CUDA兼容度在国产GPGPU中最高 [48] |
| 9 | 天数智芯 | 训练+推理双量产先行者 | ¥5.40亿(2024年,CAGR 68.8%)[4467] | 港交所(09903,2026年1月上市)[4462] | 国内首家实现训练与推理通用GPU量产的企业 [4472];天垓Gen3预计2026Q1量产,智铠系列专攻推理 [4472];2025H1营收¥3.24亿(+64.2%),毛利率56.6% [4469];累计出货超5.2万片,服务290家客户 [4469] |
| 10 | 燧原科技 | 腾讯深度绑定+推理优先 | ¥9.90亿(2025年)[4537] | 科创板IPO过会 [4538] | 腾讯贡献2025年营收的83.79% [4543];预计2026年上半年即可追平2025年全年收入 [4536];预计最快2026年实现合并报表盈利 [55];云燧系列推理芯片在性价比上具备竞争力 |
投资人视角:第二梯队的5家公司中,摩尔线程已于2026Q1实现盈利拐点,是最接近”越过盈亏线”的一家 [4434]。壁仞和燧原的营收增速极快但亏损额仍大(壁仞2025年亏损超百亿 [56]、燧原2025年亏损¥11.64亿 [4537]),需密切关注毛利率走势和经营性现金流转正时间点。沐曦和天数智芯的CUDA兼容路线在短期迁移成本上占优,但长期面临NVIDIA专利和生态封锁的风险。
这些公司营收规模不大,技术路线不”主流”,但在特定领域拥有不可替代的卡位价值。
| 序号 | 公司 | 核心标签 | 2025年营收 | 上市状态 | 入选理由 |
|---|---|---|---|---|---|
| 11 | 景嘉微 | 军用GPU唯一标的+信创桌面GPU | ¥7.2亿(+54.41%)[4475] | 创业板(300474) | 国内唯一军用飞机图显模块GPU供应商,JM5400占据军用市场绝大部分份额 [4479];JM11系列通用GPU已流片,向AI算力延伸 [4477];定增募资¥42亿用于高性能通用GPU [4480];但2025年归母净利润亏损¥1.65亿,高研发投入侵蚀利润 [57] |
| 12 | 瀚博半导体 | 全功能GPU+视频编解码 | 未公开(2025年估值¥105亿)[4660] | IPO辅导中(中信证券)[4655] | 核心团队来自AMD,CEO钱军曾主导AMD首颗7nm GPU量产 [4656];SG100为国产唯一7nm全功能GPU,支持渲染+AI+视频编解码”三位一体” [4651];累计融资超¥25亿,股东含阿里、快手、中网投 [4663] |
| 13 | 登临科技 | GPU+异构架构+边缘推理 | 未公开 | 未上市(获中网投独家投资)[4615] | 自主创新的GPU+架构,在兼容CUDA的前提下实现3倍能效优势 [4618];Goldwasser系列已在安防、交通、金融、电力等行业实现规模化商业落地 [4623];是国内首个实现规模商业落地的GPU企业 [4612] |
| 14 | 砺算科技 | 纯图形渲染GPU+6nm | 尚未产生营收(2026年3月首发)[4685] | 东芯股份控股(688110)[4687] | 首款6nm全自研GPU”7G100”于2026年3月正式发售,对标NVIDIA RTX 4060 [4681];从指令集到计算核心完全自主设计,TrueGPU天图架构 [4681];累计融资约¥5.28亿,仅为国际巨头单款GPU研发投入的1/20 [4679];是国产图形渲染GPU赛道最纯正的标的 |
| 15 | 芯原股份 | GPU IP授权+ASIC定制 | ¥31.52亿(+35.77%)[4606] | 科创板(688521) | 唯一不直接卖芯片但深度参与GPU产业链的公司:拥有自主GPU IP、NPU IP、VPU IP等6大类处理器IP [4609];2026年1-4月新签订单¥45.16亿,AI算力相关订单占比超85% [4610];NPU IP已被91家客户用于140余款AI芯片,全球出货近2亿颗 [4601] |
架构师注:砺算科技是国产GPU赛道中最值得关注的”异类”——它几乎是唯一一家真正从零开始做图形渲染GPU的公司(而非AI加速器贴GPU标签)。7G100从回片到量产仅用不到一年 [4677],效率极高。但营收为零、估值¥35亿 [4676],商业化的万里长征才刚开始。景嘉微的军用GPU壁垒极高,但向AI算力延伸的路径尚不清晰。
| 公司 | 状态 | 核心风险 | 关注理由 |
|---|---|---|---|
| 象帝先 | 2024年8月爆发解散危机,2025年2月完成数亿元融资”续命” [4591];计划2026年完成股份制改造并冲刺IPO [4585] | 对赌失败、欠薪、多起诉讼、经营连续性存疑 [4588] | 基于Imagination IP的GPU路线有一定技术积累,若”起死回生”成功,存在困境反转可能 |
| 芯瞳半导体 | 2024年营收¥5078.5万,净利润-¥4899.6万 [4633];大胜达拟投¥5.5亿获22.98%股权(二期¥2.5亿需等第三代GPU流片成功才支付)[4636] | 资不抵债(所有者权益-¥1966.97万 [4634]),商业化规模极小,严重依赖外部输血 | 信创桌面GPU赛道稀缺标的,创始团队源自西邮2009年组建的国内首支GPU研发团队 [4638] |
| 瑞芯微/全志/晶晨 | SoC内置GPU/NPU,非独立GPU芯片公司 | 与独立GPU赛道关联度低 | 在端侧AI推理(智能家居、AIoT、边缘计算)场景中,SoC内置NPU可能比独立GPU更经济,需关注其对部分边缘GPU市场的替代效应 |
对于上述公司,投资人应持续跟踪以下核心指标(而非仅看营收增速):
毛利率走势:壁仞毛利率从76.4%降至31.9%(从定制化转向标准化销售)[27],沐曦、天数智芯毛利率在50-65%区间。毛利率低于40%意味着产品差异化不足,可能陷入价格战。
客户集中度:燧原对腾讯的销售占比高达83.79% [4543],昆仑芯虽中标中国移动大单但外部客户占比仍需提升。客户过度集中是独立GPU公司的”阿喀琉斯之踵”。
研发投入与营收之比:摩尔线程2025年研发投入¥13.05亿,占营收86.68% [4424]——这既是技术决心的体现,也是盈利压力的来源。
供应链可替代性:所有7nm及以下制程的国产GPU均面临台积电断供风险。华为昇腾已转向SMIC N+2,但其他厂商的先进制程替代方案尚不明确。
软件生态开发者数量:华为昇腾400万开发者 [4389]、海光依托ROCm生态——这是最难以短期追赶的壁垒,也是未来淘汰赛的核心变量。
总结制约产业发展的核心瓶颈、技术路线分歧及未来走向
国产GPU/AI加速器产业的瓶颈并非单一维度,而是 “HBM—先进封装—制程—软件生态”四重约束 的叠加。这四个瓶颈相互耦合,形成”木桶效应”——任一短板都将限制整体竞争力。
HBM(高带宽存储器)是AI大芯片的”粮仓”,直接决定显存带宽和容量。中国至今无法规模量产HBM,构成国产AI芯片的 最大供给约束 [4772]。
| 指标 | 国际水平(2025-2026) | 国产水平 | 差距 |
|---|---|---|---|
| 主流产品 | HBM3E(1.0-1.2 TB/s) | HBM2小批量试产 | 落后约1代 |
| 单堆栈容量 | 24-36GB(HBM3E) | 8-16GB(HBM2) | 约50% |
| 带宽 | 819 GB/s-1.2 TB/s | 仅达国际水平65% | 35%差距 |
| 成本 | 基准 | 高出40% | 性价比劣势 |
关键判断:HBM是”人有我无”的卡脖子环节,其突破进度将直接决定华为昇腾910C/950系列的量产规模,进而影响整个国产替代节奏。2026年长鑫HBM3量产是关键拐点,但初期产能仅够支撑华为一家。
高性能AI芯片依赖CoWoS类2.5D封装将GPU与HBM集成。台积电垄断全球CoWoS产能(2025年底月产能约7-8万片,2026年底达9-13万片),其中NVIDIA独占超60% [5050]。国产先进封装产能仅为台积电的 5-10%:
| 厂商 | 2026年产能规划 | 良率 | 定位 |
|---|---|---|---|
| 长电科技 | 类CoWoS 0.5-0.8万片/月 | 75-80% | 全球第三,XDFOI平台 |
| 通富微电 | 2,000片/月 | — | 大陆唯一能量产HBM3封装 |
| 盛合晶微 | 目标月产数万片(年倍增) | — | 华为深度绑定,承接昇腾订单 |
死结:HBM颗粒本身尚未量产,先进封装又依赖HBM颗粒才能实现2.5D集成,两者形成 “双重卡脖子”。这意味着即使国产GPU设计出来,也可能面临”无HBM可用、无封装可封”的困境。
中芯国际N+2(等效7nm)是国产GPU的制造主力,但与国际先进制程存在约1-2代差距:
| 指标 | 2025年 | 2026年 |
|---|---|---|
| N+2(7nm)良率 | 突破90%,稳定量产 | 产能持续提升 |
| N+2月产能 | 约3.5万片/月 | 约7万片/月(翻倍) |
| N+3(5nm)良率 | 仅33%(Q1),年底约40%+ | 爬坡中 |
| N+3成本 | 比台积电同等工艺高40-50% | 维持劣势 |
架构师判断:无EUV光刻机的情况下,中芯国际通过DUV多重曝光实现5nm级生产,但成本高、良率低。这意味着国产GPU在制程上 至少被锁死在比台积电落后1-2代的水平,直至国产EUV突破。好消息是,7nm对于AI推理芯片已足够——NVIDIA H20(对华特供版)本身也是阉割产品,制程差距在推理场景中并非决定性因素。
软件生态是国产GPU与NVIDIA之间 最难弥合的差距,且呈现”死亡循环”特征:开发者少→框架优化慢→性能差→用户流失→开发者更少 [4730]。
| 维度 | NVIDIA CUDA | 国产最佳水平 | 差距倍数 |
|---|---|---|---|
| 开发者数量 | 400万+ | 国产社区月活<5% | >20x |
| 支持AI模型数 | 23,000+ | 华为CANN约160+ | >100x |
| 生态积累年限 | 19年(2006起) | 华为CANN 4年(2021起) | ~15年 |
| 沐曦MXMACA注册用户 | — | 15万人 | 规模差距显著 |
关键判断:软件生态追赶所需时间远超硬件追赶。硬件可以”大力出奇迹”,但生态建设需要开发者社区、工具链、文档、开源项目的长期积累。未来3-5年,软件生态的成熟度将决定哪些厂商能活下来。
国产AI芯片产业已形成两大技术阵营,围绕”兼容CUDA vs 自研生态”展开根本性路线之争 [4701]。
| 维度 | CUDA兼容路线 | 自研路线 |
|---|---|---|
| 代表厂商 | 摩尔线程、沐曦、海光DCU | 华为昇腾、寒武纪、昆仑芯 |
| 核心策略 | 通过自研软件栈在API层兼容CUDA,降低迁移成本 | 构建完全自主的编程模型与生态 |
| 迁移成本 | 极低(摩尔线程MUSIFY自动转换90%+语法) | 高(需重写代码,1-3个月适配周期) |
| 长期风险 | 跟随CUDA,始终”慢半拍”;英伟达EULA限制转译层 | 生态封闭,开发者门槛高,推广慢 |
| 核心优势 | 快速商业化,客户”无感迁移” | 完全自主可控,不受制裁影响 |
| 创始人背景 | 张建中(前NVIDIA)、陈维良(前AMD) | 华为内部、寒武纪陈天石(中科院) |
兼容派逻辑:“先求生存,再图发展。“CUDA生态拥有400万开发者、数万个模型,兼容是”站在巨人肩膀上” [5246]。华安嘉业投资负责人总结:“国产GPU在起步阶段兼容现有生态更容易发展,但长期还是要摆脱兼容思路,发展自有核心技术。” [4691]
自研派逻辑:“兼容就是永远跟随。“华为轮值董事长徐直军在2025全联接大会上明确表态:“我们投这么多钱兼容CUDA生态,而且CUDA现在也不能随便用,都是过去的版本。如果哪天CUDA生态兼容不了怎么办?从长远来考虑的话,要把生态构建起来。” [4741]
架构师判断:两条路线正在实质性地 双向收敛。
终极判断:未来3-5年,行业不会形成”纯CUDA兼容”或”纯自研”的单一格局,而是走向 “自研架构 + CUDA兼容层 + 开源生态” 的混合模式。差异化将更多体现在垂直场景(推理/训练/图形)和生态绑定深度上,而非底层指令集。
| 事件 | 影响 |
|---|---|
| 华为昇腾950PR(Q1)/950DT(Q4)发布 | 算力达1PFLOPS,互联带宽提升至2TB/s,算力密度较910C提升50%+ [5582] |
| 长鑫HBM3量产(Q2预期) | 缓解HBM瓶颈,但产能仅够25-30万颗昇腾 |
| 沐曦C600量产(H1),C700流片(H2) | 从”可用”到”好用”的关键产品迭代 |
| 英伟达H200获批对华出口 | 对国产GPU形成新的竞争压力 [5592] |
| 大摩预测:华为以50%份额成国内Top1,英伟达降至8% | 市场格局根本性逆转 [4733] |
| 摩尔线程Q1营收同比增速>150%,沐曦Q1亏损大幅收窄 | 头部企业加速盈利拐点 [5676] |
结论一:全功能GPU路线是”最难的窄门”,但也是”最宽的护城河”。 摩尔线程是唯一真正走全功能GPU路线(图形渲染+AI计算+科学计算)的国产厂商,这条路对技术、资金、生态要求极高,但一旦走通,将形成类似NVIDIA的”三位一体”壁垒——竞争对手难以在任何单一维度上全面超越。目前其游戏性能仅约GTX 1060-RTX 2060水平 [5196]。“花港”架构算力密度提升50%,效能提升10倍,支持FP4至FP64全精度 [5622]。
结论二:ASIC/NPU路线的”天花板”在推理,不在训练。 华为昇腾凭借达芬奇架构和全栈能力在训练市场占据主导,但ASIC架构的通用性不足是内在缺陷——华为已意识到这一点,昇腾910D增加了SIMT模块,向GPGPU方向靠拢 [5636]。寒武纪、昆仑芯在推理场景的性价比优势显著,但切入训练市场需要更大规模的软件投入。
结论三:CUDA兼容是”过渡策略”,不是”终极方案”。 兼容CUDA可以快速降低迁移成本、抢占市场,但长期来看,英伟达随时可能收紧EULA限制转译层,且跟随策略无法建立真正的技术壁垒。厂商需要在兼容过渡期内(约3-5年窗口期)完成自有生态的构建,否则可能沦为”二等公民”。
结论四:HBM+先进封装突破是产业”解锁”的关键。 2026年长鑫HBM3量产和国产先进封装良率提升,将决定华为昇腾950系列、沐曦C700、壁仞下一代产品能否大规模出货。如果HBM瓶颈无法突破,国产GPU将在”纸面性能优秀但实际供货不足”的困境中徘徊。
结论五:市场容得下3-5家,容不下15家。 当前国产GPU赛道超过15家规模参与者,但2024年没有一家市占率超过1%(除华为外)[5422]。随着IPO资金到位,2026年起各家同步放量,可能出现”价跌量升”的洗牌。预计到2028年,仅3-5家能实现稳定盈利并持续迭代,其余厂商将被并购或退出。
结论六:智算中心需求足以支撑头部企业,但存在”潮汐风险”。 全国已建成万卡智算集群42个,智能算力规模超1590 EFLOPS。中国移动规划到2028年底全国产智能算力规模突破100 EFLOPS [5402]。需求端确定性高,但若2027-2028年AI大模型训练需求增速放缓或技术路线转向(如推理需求占比大幅提升),可能导致GPU供给过剩,加速行业洗牌。
本报告在前述章节中,为表述方便,沿用了行业通用说法“国产GPU”。但从本节的严格技术分析出发,需要旗帜鲜明地给出以下判断:
中国的“GPU替代”实质上是“AI加速器替代”:除摩尔线程、景嘉微、海光DCU外,所有厂商的真实产品属性均为AI加速器。这不影响它们在AI场景中的价值,但意味着它们天然不能覆盖NVIDIA近一半的营收来源(游戏+专业可视化+Omniverse)。
“GPU”标签是一种不精确但有效的营销语言:在中国市场,“GPU”一词天然携带“能与NVIDIA竞争”的暗示力,AI加速器厂商主动挂上“GPU”标签,是对资本故事和客户心智的现实妥协。投资者分析师需清醒识别这一包装。
华为昇腾的“异类”路径:尽管是AI加速器,但昇腾通过自研达芬奇架构+全栈CANN软件+固件+编译器+部署工具链一体的垂直整合,其生态壁垒已接近全功能GPU的强度。它是唯一一家以AI加速器身份构建了接近GPU级生态的公司,因此在后文分析中将其单独归为“AI加速器旗舰”级别。
未来的演化走向:部分AI加速器厂商(如壁仞、沐曦)正在下一代产品中尝试恢复部分图形能力,希望从“AI加速器”升级为“GPGPU”,以获得更大的市场空间。这一转型的技术难度和软件工程量极其巨大,应审慎评估。
一句话总结本小节的核心价值:在看任何一家国产“GPU”公司的投资价值时,首先问自己——它到底是一块会算矩阵乘法的石头,还是一块真正能画画、能算数、还能装进你游戏机里的万能芯片?这个问题的答案,将定义它未来十年的市场边界。
从架构、可编程性、微架构层面区分图形渲染GPU、GPGPU、ASIC加速器
如果说前一个节讲的是“为什么国产GPU火了”,那本节要回答的是另一个更根本的问题:“这些公司做的到底是不是GPU?” 答案不在商业计划书里,而在芯片的晶体管层面的设计决策中。从架构师视角看,GPU与AI专用加速器本质上是两种生物——前者从图形渲染“长出来”的通用并行处理器,后者是为矩阵乘法“定制”的领域特定架构(DSA)[9070]。理解这一差异,需要从渲染管线、计算核心组织和可编程性光谱三个维度做一次“解剖学”对比。
任何一块全功能GPU的芯片上,都必然会留下图形渲染的“基因烙印”——固定功能硬件管线。现代GPU虽然早已演化为统一着色器架构,但其物理电路中仍保留着大量专为图形处理设计的硬连线逻辑,这些是AI加速器绝对不会拥有的。
固定功能单元的“遗产” 图形渲染管线本质上是一个将三维场景转换为二维像素的流水线,其核心步骤包括:顶点处理、图元装配、光栅化、像素着色、纹理映射和最终输出[9161]。在早期GPU中,每个阶段都由独立的硬件单元执行,形成“像素渲染管线 = 像素着色单元(PSU)+ 纹理贴图单元(TMU)+ 光栅化输出单元(ROP)”的铁三角[9156]。尽管可编程着色器(顶点/像素/几何着色器)的引入让GPU摆脱了纯固定功能,但光栅化器、ROP、TMU等单元至今仍以固定功能硬件的形式存在,因为它们在面积、功耗和性能上远优于可编程实现[9172]。
具体而言:
这些单元的存在,意味着全功能GPU的芯片面积中有15%~25%被AI加速器完全不需要的电路占据。换句话说,AI加速器可以将这些晶体管预算全部用于矩阵计算单元,从而在相同制程和功耗下获得更高的AI算力密度。这便是为什么“AI加速器”在纯矩阵运算场景下效率远高于GPU的根本原因之一。
从固定管线到统一着色器:GPU的自我进化 GPU进化史上最关键的转折点,是2006年G80架构引入的统一着色器模型 [9087]。这一模型将顶点、像素、几何着色器统一为通用的流处理器(SP),使得所有计算资源可以动态分配,极大提升了可编程性和利用率。然而,这并未消除固定功能硬件,而是让可编程着色器与固定功能单元协同工作——光栅化、纹理映射和输出混合仍由专用硬件完成,而着色器程序则运行在SIMT核心上。这种“可编程着色器 + 固定功能硬件”的混合架构,正是GPU区别于AI加速器的核心特征 [9172]。
如果说渲染管线差异是“外观”,那么计算核心的微架构差异就是“骨骼”。GPU和AI加速器在并行计算模型上的分野,直接决定了它们的通用性、效率和编程范式。
GPU的SIMT:灵活但“臃肿” NVIDIA GPU采用单指令多线程(SIMT)执行模型,32个线程被捆绑为一个warp,在同一时钟周期内执行同一条指令 [9101]。每个CUDA Core拥有独立的寄存器文件,可以独立寻址。关键特性是:warp内部的线程可以“有条件地分叉”(branch divergence),虽然这会导致性能损失,但确实允许程序员编写任意复杂的控制流代码 [9101]。此外,GPU的流多处理器(SM)内部包含warp调度器、大容量寄存器文件、共享内存、L1缓存和特殊函数单元(SFU)等,这些组件为通用计算提供了极高的灵活性,但也消耗了大量晶体管面积和功耗 [9225]。
AI加速器的脉动阵列:极简高效 以Google TPU、华为达芬奇架构的3D Cube、寒武纪MLU为代表的AI加速器,核心计算单元普遍采用脉动阵列(Systolic Array)结构 [8979]。以TPU v1为例,其核心是一个256×256的脉动阵列,包含65,536个乘法累加器(MAC)[8991]。数据以“波浪”方式在阵列中流动,每个MAC单元完成运算后将结果传递给相邻单元,无需反复访问寄存器文件或共享内存 [9105]。这种设计几乎消除了传统GPU架构中大量的控制逻辑、寄存器文件访问和缓存层次开销,从而在矩阵乘法场景下实现极高的计算密度和能效比 [9225]。
一个形象但不精确的比喻:SIMT模型像一支“可以各自拐弯的阅兵方阵”(每个士兵可以执行不同的分支,但代价是效率下降);脉动阵列则像“传送带上的流水线工人”(数据流过,每人只做一件事,极致高效但无法应对指令流分叉)。这正是为什么GPU能跑Photoshop、虚幻引擎、PyTorch和SQL查询,而TPU基本只能跑TensorFlow。
如果用一个维度来区分GPU和AI加速器,那一定是 可编程性光谱。从最通用到最专用的计算架构谱系可以清晰地展示这种取舍 [9049]:
CPU(最通用)→ GPU/GPGPU → FPGA → NPU/ASIC(最专用)
灵活性递减 →→→→→→→→→→→→→→→→→→→ 效率递增
关键权衡:GPU的通用性以“浪费晶体管”为代价——大量die面积用于控制逻辑、调度器和缓存,这些对纯矩阵乘法是“无效开销” [9225]。而AI加速器的专用性以“牺牲灵活度”为代价——一旦AI模型架构发生根本性变化(如从CNN到Transformer再到未来的新架构),ASIC可能出现“结构性失效” [8983]。这种权衡也解释了为何许多国产AI芯片企业早期侧重端侧NPU,却在大模型时代面临适配困难:决策层对可编程性与通用性的重视不足,导致架构在更广泛的应用场景中平均性能平庸 [8967]。
这一技术差异直接映射到国产厂商的技术路线选择上。根据对图形固定功能硬件的保留程度,可以清晰划分:
需要特别指出,华为昇腾的达芬奇架构是典型的DSA:其AI Core由Cube Unit(矩阵乘)、Vector Unit(向量运算)和Scalar Unit(标量控制)分离设计,每个周期可完成4096次MAC运算 [9248],并使用软件管理的片上buffer而非硬件自动管理的cache [9255]。这种设计在AI推理场景下能效比极高,但通用性受限,这也是传闻华为考虑转向GPGPU路线的技术背景 [9256](需进一步核验)。
从架构差异回到产业判断,核心结论可以概括为:
这一判断将直接影响后续章节对每家公司的归类、评价和前景预测。
解释为何多数厂商实为AI加速器而非全功能GPU,及其对商业模式的本质影响
在国产算力芯片的讨论中,“GPU”一词常被泛化为“AI芯片”的同义词,但这种混用掩盖了深层的架构差异与商业模式分野。从技术本质与产业现实出发,将一家公司定性为“GPU公司”还是“AI加速器公司”,直接决定了对其技术壁垒、可编程性、软件生态、市场边界乃至长期生存概率的判断。本节从 历史演化、架构本质、可编程性、图形能力、生态壁垒 五个维度,厘清两者的实质区别。
理解当代GPU与AI加速器的分野,必须回到GPU的演化源头。
GPU的基因 源于图形渲染。1999年NVIDIA GeForce 256首次引入硬件变换与光照(T&L)引擎,标志着图形流水线从固定功能向可编程的质变[9272]。此后,可编程着色器(Shader)的引入使GPU具备了执行非图形计算的可能性。2006年CUDA的发布是决定性拐点——NVIDIA将GPU从图形独占的计算设备,重构为通用并行计算平台[9274]。这一定位被浓缩为“GPGPU”(General‑Purpose GPU)概念:硬件本质上仍保留完整的图形流水线,但通过软件栈暴露通用计算接口[9281]。
AI加速器的基因 则完全不同。它起源于一种观察:深度学习的核心运算(矩阵乘法、卷积、激活函数)在GPU上执行时,大量图形专用硬件(光栅化单元、纹理单元、显示控制器)处于闲置状态。为什么不设计一款 只做AI运算、舍弃图形 的芯片?Google的TPU(2016年)是这一思路的原型——以脉动阵列(Systolic Array)为核心,专为TensorFlow矩阵运算优化,完全不具备图形能力[9276]。此后,Habana Gaudi、AWS Trainium、Graphcore IPU等均延续这一理念:以AI工作负载为唯一靶标,以张量计算阵列替代图形流水线[9284]。
可以这样理解:GPU如同一个“大学教授”,他精通高等数学(并行计算),也擅长美术(图形渲染),虽然数学研究是他的强项,但他从未丢掉画笔和画板。AI加速器则是一个“专业数学家”,他只做数学研究,不画画,工具和工作室布置都只为数学服务,做数学的效率可能更高,但你让他画幅素描,他完全无能为力。两者的出身决定了能力的根本不同。
这个历史分岔对中国产业意义重大:绝大多数国产“GPU”初创公司,从一开始就选择的是AI加速器路线。它们从未设计、也无意设计图形渲染流水线。
要准确判断一家公司的真实属性,不能看它自称什么,而要看其芯片 微架构 中包含了什么、舍弃了什么。以下是三者的关键区分:
| 维度 | 全功能GPU | GPGPU | AI加速器 |
|---|---|---|---|
| 图形流水线 | 完整硬件:光栅化单元(ROP)、纹理单元(TMU)、几何引擎、显示控制器、视频编解码 | 与全功能GPU相同,完整保留图形硬件 | 无。无ROP、无TMU、无显示输出,甚至无视频编解码 |
| 着色器核心 | SIMT架构,支持顶点/像素/几何/计算着色器 | 与GPU相同 | 通常为张量计算阵列(脉动阵列或类TPU架构),无传统着色器概念 |
| 计算核心 | CUDA Core / Tensor Core共存,统一调度 | 与GPU相同 | 以矩阵乘加(MAC)阵列为主,部分加通用矢量单元 |
| 可编程性 | 高。支持CUDA/OpenCL/ROCm等完整并行编程模型 | 与GPU相同 | 中到低。通常为图级别编译,算子级可编程性受限 |
| 图形API | DirectX / Vulkan / OpenGL 完整支持 | 完整支持 | 不支持。零图形能力 |
| 显示输出 | 有。带显示接口(HDMI/DP) | 有 | 通常无。纯PCIe加速卡,无显示输出 |
| 虚拟化 | GPU虚拟化支持(vGPU/MIG) | 支持 | 通常不支持或有限支持 |
| 典型产品 | NVIDIA RTX 5090、AMD RX 7900、摩尔线程MTT S4000 | NVIDIA A100/H100(数据中心GPU仍保留完整图形硬件)、海光DCU | 华为昇腾910B、寒武纪MLU590、Google TPUv5、AWS Trainium2 |
| 核心任务 | 图形渲染 + AI + HPC + 编解码 | AI训练/推理 + HPC + 图形渲染 | 纯AI训练/推理 |
关键洞察:NVIDIA的数据中心旗舰产品(A100/H100/B200)虽然在数据中心场景下很少被用于图形渲染,但在硬件层面 从未移除图形流水线。这是一种深层次的架构选择——它保留了对图形API的完整支持,使同一芯片可以服务于渲染农场、数字孪生、Omniverse等场景。而国产AI加速器从第一天起就认定“图形是多余的”。
由此可以给出一个严格的技术定义:
若一款芯片 物理上不存在 光栅化单元(ROP)、纹理单元(TMU)、显示控制器中的任意两项,且 软件栈不支持 DirectX/Vulkan/OpenGL等标准图形API,则它是 AI加速器,而非GPU或GPGPU。
按此标准,中国市场上 严格意义上的全功能GPU/GPGPU公司仅有三家:
其余所有公司——华为昇腾、寒武纪、壁仞、天数智芯、燧原、沐曦、百度昆仑芯、阿里真武等——本质上都是AI加速器。
“全功能GPU”与“AI加速器”最本质的差异不在于算力数值,而在于 可编程性。这是被产业界反复低估的核心变量。
GPU的可编程性源于其SIMT(单指令多线程)编程模型。程序员通过CUDA或类似工具链,可以自由地编写任意并行程序,操作任意内存层级,实现任意计算图。这种灵活性意味着GPU可以应对:
AI加速器的可编程性则受限于其“图编译器”范式的天花板。多数AI加速器的编程模型是:框架导出计算图→编译器将图映射到硬件→硬件执行。这意味着:
国内AI芯片领域的核心问题,用一句话总结就是:决策层对可编程性与通用性的重视不足,过多资源投入到特定场景的优化中,虽能在宣传数据上呈现亮眼表现,但一旦拓展至更广泛的应用场景,平均性能便显得平庸[9266]。
商业后果是致命的:
许多观点认为,“在AI训练推理场景中完全不需要图形能力,舍弃图形可以节省芯片面积和功耗”。这一技术逻辑在纸面上成立,但在产业维度上存在三个容易被忽视的反驳:
第一,图形能力是软件生态的“入场券”。NVIDIA的CUDA生态之所以无孔不入,部分原因在于它横跨游戏、专业可视化、科学计算、AI等多个领域,开发者基数巨大。图形与AI共用同一架构,意味着高校教学、个人开发者、游戏工作室、渲染农场等场景培育的CUDA开发者,自然可以向AI计算迁移。国产AI加速器放弃了图形市场,就等于放弃了培育开发者基数的最大蓄水池。
第二,图形能力是产品形态灵活性的来源。全功能GPU可以同时覆盖:游戏卡、渲染工作站、VR/AR、数字孪生、AI服务器等多种形态。而AI加速器只能做AI加速卡,产品线单一,市场天花板受限于AI算力需求增速。
第三,当前可能不重要的图形,未来可能变得重要。AI+渲染(NeRF、3D Gaussian Splatting)、AI+物理仿真、Omniverse数字孪生等新兴负载,要求AI计算与图形渲染在 同一芯片、同一显存 内完成。全功能GPU可以关机后原地变身渲染卡,这是AI加速器无法做到的。
“GPU公司”与“AI加速器公司”在技术底色上的差异,最终映射为截然不同的商业模式:
| 维度 | GPU公司(如NVIDIA/摩尔线程) | AI加速器公司(如昇腾/寒武纪/燧原) |
|---|---|---|
| 市场规模 | 游戏+专业可视化+AI+HPC,四重市场叠加,全球市场规模>2,000亿美元 | 仅AI/HPC市场,全球约500‑800亿美元(且集中于头部客户) |
| 客户分散度 | 数亿游戏玩家+数百万开发者+成千上万数据中心客户 | 仅几十到几百家云厂商、运营商、大模型公司 |
| 收入基数延迟 | 游戏/渲染业务提供稳定现金流,抗周期能力强 | 完全依赖AI算力投资周期,BIS制裁缓急影响极大 |
| 软件生态 | 需自建完整的驱动、API、SDK、开发者社区体系,单个GPU固件代码量超千万行 | 只需为AI框架(PyTorch/TF)提供算子级别的后端支持,软件工程量较少 |
| 供应链风险 | 相同。制程、HBM、先进封装依赖相同 | 相同 |
| 技术护城河 | 图形+AI+HPC三栖,每个领域都需要独立技术积累,跨界极难 | 仅AI加速,护城河相对窄;架构易被模仿 |
| 定价权 | 强。全功能GPU提供多维度的差异化价值 | 弱。同质化严重,只能拼算力/TCO,价格战压力大 |
| 上市对标 | NVIDIA(市值3万亿美元+)/ AMD | 无直接对标。更像是“算力模块”提供商 |
可以做一个略带讽刺但不失真实的商业推演:一家AI加速器公司即便在性能上追平了同期NVIDIA数据中心GPU的AI算力,如果无法提供图形能力,它永远不可能进入游戏、专业可视化、自动驾驶渲染等市场,其营收天花板仅有NVIDIA的1/4到1/3。而从市场规模的“分母”来看,绝大多数国产AI加速器公司的远期估值,天生就缺少了GPU公司所拥有的多重期权。
通过表格形式快速展示各厂商成立时间、总部、技术路线、产品、融资状态、商业化阶段等核心信息
以下表格覆盖中国大陆主要 GPU/GPGPU/AI 加速器芯片设计厂商,按 技术路线与市场定位 分层排列。信息截至 2026 年 6 月 18 日,所有数据均来自公开资料。标记”⚠“表示信息来自非官方渠道或需进一步核验。
| 序号 | 公司名称 | 英文名 | 成立时间 | 总部 | 创始人/核心人物 | 核心团队背景 | 技术路线 | 是否严格 GPU | 代表产品 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 华为昇腾 | Huawei Ascend | 2018年(产品线发布) | 深圳 | 徐直军(战略推动者) | 华为自研达芬奇架构团队 | 自研达芬奇(Da Vinci)AI 加速架构 | ❌ AI 加速器 | Ascend 910C / 950PR / 950DT |
| 2 | 阿里平头哥 | T-Head (Alibaba) | 2018年9月 | 上海 | 张建锋(阿里云创始人) | 达摩院芯片团队 + 中天微整合 | 自研 GPGPU 并行计算架构 | ⚠ 偏 GPGPU | 真武 810E / M890 |
| 3 | 寒武纪 | Cambricon | 2016年 | 北京 | 陈天石、陈云霁 | 中科院计算所孵化 | 自研 MLU 架构(AI 专用) | ❌ AI 加速器 | 思元 590 / 690 |
| 4 | 海光信息 | Hygon | 2014年(DCU 2018年启动) | 天津 | 海光团队(AMD 技术授权背景) | AMD Zen 架构授权 + 自研 DCU | x86 CPU + GPGPU(ROCm 兼容) | ❌ GPGPU | 深算二号 / 深算三号(DCU 8300) |
| 5 | 摩尔线程 | Moore Threads | 2020年10月 | 北京 | 张建中(James Zhang) | 前 NVIDIA 全球副总裁 + 中国区总经理,团队大量来自 NVIDIA | 自研 MUSA 架构(全功能 GPU) | ✅ 全功能 GPU | MTT S5000 / S4000 / 华山 / 庐山 |
| 6 | 壁仞科技 | Biren Technology | 2019年 | 上海 | 张文(董事长兼CEO) | 前商汤总裁 + 海思/AMD/英伟达资深工程师 | 自研 GPGPU 通用架构 | ❌ GPGPU | BR100 / 壁砺 166M / BR20X |
| 7 | 沐曦 | MetaX | 2020年9月 | 上海 | 陈维良(CEO) | 核心团队平均近 20 年 AMD GPU 研发经验 | 全栈通用 GPU(CUDA 兼容) | ✅ 全功能 GPU | 曦云 C500 / C600 |
| 8 | 天数智芯 | Iluvatar CoreX | 2016年 | 上海 | 蔡全根(董事长) | 中美两地团队,早期来自 AMD/英伟达 | 自研通用 GPU 架构 | ✅ GPGPU | 天垓 100 / 天垓 Gen3 / 智铠 Gen3u |
| 9 | 燧原科技 | Enflame | 2018年3月 | 上海 | 赵立东(CEO)、张亚林(CTO) | 前 AMD 中国研发中心负责人 | 自研 DSA 架构(不兼容 CUDA) | ❌ AI 加速器 | 邃思 S60 / L600 |
| 10 | 昆仑芯 | Kunlunxin | 2011年(百度内孵化,2021年独立) | 北京 | 欧阳剑(CEO) | 百度 AI 芯片团队 + 行业招聘 | 自研 XPU 架构 | ❌ AI 加速器 | 昆仑芯 3 代 P800 / M100 / M300 |
| 11 | 景嘉微 | Jingjia Micro | 2006年4月 | 长沙 | 曾万辉、喻丽丽夫妇 | 国防科大背景,军用图形显控起家 | 自研 GPU 统一渲染架构 | ✅ 图形 GPU | JM9 系列 / JM11 / JM1100 / 景宏系列 |
| 12 | 砺算科技 | Lisuan Tech | 2021年 | 南京 | 宣以方(CEO)⚠ | 团队来自 AMD/英伟达/Imagination,平均 15+ 年 GPU 经验 | 自研 TrueGPU”天图”架构 | ✅ 图形 GPU | LX 7G100 / 7G106 |
| 13 | 芯动科技 | Innosilicon | 2006年 | 北京/武汉/珠海 | 敖海 | 全球 IP 定制 + GPU 研发团队 | Imagination IP 授权 + 自研 RISC-V 融合 | ✅ 全功能 GPU | 风华 1 号 / 2 号 / 3 号 |
| 14 | 瀚博半导体 | VastAI | 2018年12月 | 上海 | 钱军(CEO)、张磊(CTO) | 前 AMD 高管及资深 GPU 工程师 | 自研 VUCA 统一计算架构(全功能 GPU) | ✅ 全功能 GPU | SV100 / SG100 / 载天 VA1L / VA12 |
| 15 | 象帝先 | Xiangdixian | 2020年9月 | 重庆 | 唐志敏 | ”龙芯一号”创始人、海光信息缔造者 | Imagination DXD IP 授权 + 自研神农架构 | ✅ 图形 GPU | 天钧系列 / 伏羲 A0 / 天驭 |
| 16 | 登临科技 | Denglin Technology | 2017年⚠ | 上海 | 李建文(CEO)⚠ | 来自英伟达/AMD GPU 架构团队 | 自研 GPU+(Minsky 片内异构) | ❌ AI 加速器 | Goldwasser UL / L / XL |
| 17 | 芯瞳半导体 | Sietium | 2019年 | 厦门(原西安) | 创始人未公开 | GPU 研发为主,85% 为研发人员 | 自研 GPU 统一渲染架构 | ✅ 图形 GPU | GB2062 / CQ2040 / GB3000(在研) |
| 18 | 芯原股份 | VeriSilicon | 2001年 | 上海 | 戴伟民(董事长兼CEO) | 全球领先的 IP 授权 + 芯片定制服务 | GPU IP 授权(Vivante/Vitality 架构)+ GPGPU-AI IP | ⚠ GPU IP 供应商 | Vitality GPU IP / GPGPU-AI IP / Coral NPU IP |
| 19 | 格兰菲 | Glenfly | 2020年⚠ | 上海 | 兆芯集团孵化 | 兆芯生态体系,图形图像 + AMOLED 驱动 | 自研 GPU 架构 | ✅ 图形 GPU | Arise-GT10C0 |
| 20 | 龙芯中科 | Loongson | 2010年(前身 2001年) | 北京 | 胡伟武(董事长兼CEO) | 中科院计算所,自主 LoongArch 指令集 | 自研 GPGPU + 集成 GPU IP(LG200) | ⚠ GPGPU 起步 | 9A1000(已流片)/ LG200 GPU IP |
| 21 | 奕斯伟计算 | ESWIN Computing | 2019年 | 北京 | 王东升(董事长) | 京东方创始人,西安奕斯伟材料体系 | RISC-V CPU + NPU + 疑似 GPU IP 授权 | ⚠ 未确认 | RISC-V 边缘计算芯片 |
注:华为昇腾、阿里平头哥并非独立 GPU 公司,而是集团内部业务线;“是否严格 GPU”指是否具备完整图形渲染管线(含硬件光栅化、纹理单元、ROP 等),❌ 表示以 AI 计算为核心、无图形硬管线。
| 序号 | 公司名称 | 目标市场 | 上市/融资状态 | 商业化阶段 | 主要客户 | 最新公开进展(截至 2026.06) |
|---|---|---|---|---|---|---|
| 1 | 华为昇腾 | 大模型训推、智算中心、政企 AI | 华为内部业务线,未独立融资 | 🟢 大规模量产 | 字节跳动(400亿+)、腾讯、阿里、中国移动 | 910C 量产,950PR 推出,2026 年 AI 芯片营收预计 120 亿美元 [10393] |
| 2 | 阿里平头哥 | 阿里云 AI 实例、自动驾驶、大模型训推 | 阿里全资子公司,未独立融资 | 🟢 大规模量产 | 阿里云、小鹏、比亚迪、国家电网、中科院 | 真武 810E 累计出货 56 万片,M890 发布,年化营收超百亿 [11171] |
| 3 | 寒武纪 | 大模型训推、智算中心、互联网 | 科创板 688256;2025 年定增 40 亿元 | 🟢 规模化出货 | 字节跳动(最大客户)、阿里、中国移动(4.3 亿订单) | 2025 年营收 64.97 亿(+453%),思元 690 研发中,市值峰值 6541 亿 [9939] |
| 4 | 海光信息 | AI 训推、HPC、信创服务器 | 科创板 688041;2022 年 IPO 募资 108 亿 | 🟢 规模量产 | 字节跳动、腾讯、阿里、百度、中国移动 | 2025 年营收 143.76 亿(+57%),深算三号量产,深算四号在研 [10674] |
| 5 | 摩尔线程 | 大模型训推、图形渲染、智算集群 | 科创板 688795;2025 年 IPO 募资约 80 亿 | 🟢 规模量产 | 前五大客户集中度高(单一最大客户贡献 57%) | 2025 年营收 15.05 亿(+243%),2026Q1 首次单季盈利,花港架构发布 [10335] |
| 6 | 壁仞科技 | 大模型训推、智算中心 | 港股 06082.HK;2026 年 IPO 募资 55.8 亿港元 | 🟢 规模量产 | 中国移动、中国电信、中兴通讯、上海 AI 实验室 | 2025 年营收 10.35 亿(+207%),BR20X 预计 2026H2 上市 [9803] |
| 7 | 沐曦 | 大模型训推、图形渲染(规划中) | 科创板 688802;2025 年 IPO 募资 42 亿 | 🟢 规模量产 | 新华三、瑞芯智能、多地智算集群 | 2025 年营收 16.44 亿(+121%),C600 预计 2026H1 量产,拟港股二次上市 [10814] |
| 8 | 天数智芯 | 大模型训推、边缘推理 | 港股 09903.HK;2026 年 IPO 募资 37 亿港元 | 🟢 规模量产 | 字节跳动(5 万颗大单洽谈中)、340+ 客户 | 2025 年营收 10.34 亿(+92%),四代架构路线图发布 [11046] |
| 9 | 燧原科技 | 大模型推理、训推一体 | 科创板 IPO 过会(2026.06.15),拟募 60 亿 | 🟢 规模量产 | 腾讯(占营收 83.79%)、美图 | 2025 年营收约 9.9 亿,S60 出货 10 万卡,L600 预计 2026H2 量产 [10798] |
| 10 | 昆仑芯 | 大模型推理、智算中心、政企 AI | D 轮融资 21 亿,投后估值 210 亿;港股/科创板双线 IPO | 🟢 规模化出货 | 百度、中国移动(十亿级订单)、招商银行、南方电网 | 2025 年营收预计 35-50 亿,M100 计划 2026 年初上市 [35] |
| 11 | 景嘉微 | 军用图形显控、信创桌面、轻量 AI | 创业板 300474;2024 年定增 38.33 亿 | 🟡 小批量出货 | 航空工业、党政信创(GPU 份额 >40%) | 2025 年营收 7.2 亿(+54%),JM11 小批量出货,JM1100 发布,CH37 点亮 [1359] |
| 12 | 砺算科技 | 消费级显卡、专业图形、云渲染 | 战略融资约 8.3 亿,投后估值 40 亿+;未上市 | 🟡 初批量产 | 京东首发(消费级)、企业用户(专业卡) | 7G100 6nm 量产,2026.06 京东 618 首发,微软 WHQL 认证 [11209] |
| 13 | 芯动科技 | 数据中心 GPU、智算、医疗显示 | Pre-IPO,估值约 300 亿;未上市 | 🟡 小批量供货 | 风华 3 号发布会近十家签约客户 | 风华 3 号发布(112GB+ 显存),LPDDR6 IP 签约头部客户 [11248] |
| 14 | 瀚博半导体 | AI 推理、云渲染、边缘计算 | Pre-IPO 轮数亿元,估值约 105 亿;科创板辅导完成 | 🟡 规模出货 | 几乎覆盖所有头部互联网公司 | IPO 辅导完成,正申报科创板,2025 年大规模商业化落地 [11967] |
| 15 | 象帝先 | 图形渲染、端侧 AI、AIPC | 数亿元 B 轮+战略融资,估值约 150 亿;2026 年启动 IPO | 🟡 小批量出货 | 超云、中移物联网、统信、新华三 | 伏羲 A0 5nm 量产,2026 年启动股改 IPO,历史被执行记录待清理 [1822] |
| 16 | 登临科技 | 边缘 AI 推理、智慧城市、智算中心 | 多轮融资,估值约 46 亿;拟 2026 年赴港 IPO | 🟡 批量出货 | 多家互联网/政企客户(数万片出货) | 2026 年 1 月新高通创投加持,最快 2026 年赴港 IPO [12172] |
| 17 | 芯瞳半导体 | 信创图形、工业显示、边缘推理 | 大胜达 5.5 亿战略投资,投后估值约 18 亿;未上市 | 🟡 小批量出货 | 飞腾/龙芯/统信/麒麟生态,信创领域 | GB3000 在研(7nm),大胜达对赌协议绑定,2025 年营收 5078 万 [11146] |
| 18 | 芯原股份 | GPU IP 授权、芯片定制 | 科创板 688521;拟港股二次上市 | 🟢 IP 授权成熟 | 全球 300+ 客户,GPU IP 累计出货 20 亿+颗 | Vitality 架构 GPU IP 发布,GPGPU-AI IP 落地汽车/边缘 [7536] |
| 19 | 格兰菲 | 信创桌面、商业显示、通用计算 | A 股辅导备案中(2025 年 2 月启动);未上市 | 🟡 小批量出货 | 信创领域,兆芯生态协同 | Arise-GT10C0 28nm 量产,处于 IPO 辅导期 [12370] |
| 20 | 龙芯中科 | CPU+GPU 自主配套、信创入门级独显 | 科创板 688047;已上市 | 🟠 研发/流片阶段 | 龙芯 CPU 生态用户 | 9A1000 已流片(2025.09),采用高自主工艺,等待回片测试 [12348] |
| 21 | 奕斯伟计算 | RISC-V 边缘计算、AIoT | D 轮超 30 亿,累计 7 轮超 130 亿;未上市 | 🟡 边缘芯片出货 | 未详细披露 | 2023 年 D 轮完成,持续布局 RISC-V AI 计算 [12330] |
| 序号 | 公司名称 | 核心评价 |
|---|---|---|
| 1 | 华为昇腾 | 🏆 国产 AI 算力绝对龙头。自研达芬奇架构 + CANN/MindSpore 全栈生态,910C 是当前唯一大规模部署的国产训练芯片,2026 年 AI 芯片营收预计达 120 亿美元。核心优势在于华为全栈能力(芯片→服务器→网络→框架→云)和政企渠道。短板在于受美国制裁导致的先进制程受限、HBM 供应依赖国产替代。当前国产替代的最优解,但供应链风险不可忽视。 |
| 2 | 阿里平头哥 | 🔥 国产 GPU 出货量黑马。真武 810E 累计出货 56 万片,是国产 GPU 中出货量最高的产品之一。核心优势在于阿里云自用场景的快速验证迭代 + 外部客户(小鹏、比亚迪)的突破。真武 M890 单卡性能为 810E 的 3 倍。最大变量是阿里云能否持续对外部客户开放,以及平头哥是否会独立融资。 |
| 3 | 寒武纪 | 📈 国产 AI 芯片第一股,2025 年绝地翻盘。思元 590 性能约达 A100 的 80%,2025 年营收暴增 453% 至 65 亿元。摘 U 后实现全年盈利。最大风险是客户高度集中(前五大客户 94%+),字节跳动订单占比极高,一旦大客户转向自研或华为,业绩将剧烈波动。技术扎实,但客户结构亟待多元化。 |
| 4 | 海光信息 | 🏦 国产 x86 CPU + GPGPU 双芯唯一量产企业。深算系列兼容 ROCm 生态,客户覆盖字节跳动、腾讯、阿里、百度等所有头部互联网公司。2025 年营收 143.76 亿,是国产 GPU 相关上市公司中营收最高者。但深算架构源自 AMD 授权,自主迭代能力受地缘政治制约。短期业绩确定性最强,长期技术自主性存疑。 |
| 5 | 摩尔线程 | 🎮 国产”全功能 GPU”第一股,最接近 NVIDIA 路线的挑战者。MUSA 架构自研 + MUSIFY CUDA 迁移工具,MTT S5000 已实现万卡集群部署。2025 年 12 月科创板上市,花港架构发布,三款新芯片(华山/庐山/长江)规划 2026 年量产。核心优势在于全功能 GPU 定位(渲染+AI 一肩挑)。最大短板是持续亏损(累计亏损约 59 亿)和客户集中度极高(前五大 98.29%)。路线正确,但盈利之路仍长。 |
| 6 | 壁仞科技 | 💪 国产 GPU 算力性能标杆,制裁下的”求生者”。BR100 曾是国产算力最强 GPU(770 亿晶体管),但被列入实体清单后失去台积电代工。被迫转向中芯国际 N+2 工艺 + Chiplet 方案的壁砺 166M 仍在量产。2026 年港股上市。核心优势在于技术实力和 2048 卡光互连超节点交付。最大风险是先进制程和 HBM 获取受限,BR20X 能否在限制下实现代际性能跨越。技术底蕴深厚,但制裁是长期天花板。 |
| 7 | 沐曦 | 🚀 国产 GPU 商业化增速最快的公司之一。曦云 C500 对标 A100/A800,2025 年营收 16.44 亿(+121%),C600 基于全国产供应链,预计 2026H1 量产。核心优势在于 AMD 出身的全栈 GPU 团队 + CUDA 兼容生态。已启动港股二次上市。路线清晰,但需证明 C600 在国产供应链下的实际性能。 |
| 8 | 天数智芯 | 🔄 国产 GPU 四小龙中”训练+推理”双量产最早的企业。2025 年营收 10.34 亿,推理业务暴增 238%。2026 年发布四代架构路线图,声称天枢架构已超越 H200。字节跳动正洽谈 5 万颗芯片大单。核心优势在于产品线完整(天垓训练+智铠推理+彤央边缘)。路线图激进,需验证天枢架构超越 H200 的实测数据。 |
| 9 | 燧原科技 | 🔗 腾讯深度绑定,DSA 路线代表。自研 DSA 架构不兼容 CUDA,S60 推理芯片累计出货 10 万卡。2026 年 6 月科创板过会。核心优势在于腾讯既是第一大股东(20.26%)又是第一大客户(83.79% 营收),生态协同紧密。最大风险是客户极度集中,腾讯自研芯片进展将直接影响燧原命运。DSA 路线在推理场景性价比高,但生态护城河窄。 |
| 10 | 昆仑芯 | 🏛️ 百度体系孵化,国产 AI 芯片”隐形冠军”。2025 年营收预计 35-50 亿,外部客户占比过半。中国移动十亿级订单中标,市场地位仅次于华为昇腾。XPU 架构针对推理优化,M100 计划 2026 年初上市。百度分拆 + A+H 双线 IPO 是最大看点,商业变现能力在国产 AI 芯片中仅次于华为昇腾。 |
| 11 | 景嘉微 | 🛡️ 国产 GPU”老兵”,军用图形显控绝对龙头。从 JM5400 到 JM1100,五代架构迭代,专注图形渲染而非 AI 训练。2025 年营收 7.2 亿,定增 38 亿押注高性能 GPU。核心优势在于党政军信创 GPU 份额超 40%,军用飞机图形显控模块几乎垄断。核心短板是 AI 算力薄弱,与华为昇腾/寒武纪不在同一赛道。从图形 GPU 向 AI 延伸的转型成败,决定未来 5 年天花板。 |
| 12 | 砺算科技 | 🎯 国产消费级 GPU 破局者,全自研架构 + 微软 WHQL 认证。7G100 性能对标 RTX 4060,6nm 台积电工艺,是国内首款全自研 GPU 架构商业化落地的消费级显卡。2026 年 618 京东首发。核心优势在于 TrueGPU 全自研架构 + 微软 WHQL 认证(国内首家)。最大风险是台积电供应链依赖、消费级 GPU 市场天花板有限、AI 能力尚弱。图形 GPU 路线的稀缺标的,需关注 AI 双模芯片进展。 |
| 13 | 芯动科技 | 🌐 国产 GPU 的”瑞士军刀”——IP 定制 + GPU 双轮驱动。风华 3 号 112GB+ 超大显存 + RISC-V + CUDA 双架构融合,78 TFLOPS FP32 算力。估值约 300 亿,Pre-IPO 阶段。核心优势在于全球 300+ 客户 IP 定制经验和一站式芯片服务能力。GPU 芯片竞争力有待市场验证,但 IP 底座深厚。 |
| 14 | 瀚博半导体 | 🎬 AI 推理 + 云渲染双引擎,全功能 GPU 低调务实派。SG100 芯片 7nm 量产,VA1L/VA12 覆盖大模型推理。覆盖几乎所有头部互联网公司。核心优势在于 AI 推理 + 视频编解码 + 图形渲染的全功能定位。上市进度偏慢,需加速资本化以支撑研发投入。 |
| 15 | 象帝先 | 🔄 “绝地翻盘”的传奇 GPU 公司。2024 年因对赌失败濒临解散,2025-2026 年通过三轮融资复活。伏羲 A0 5nm 量产,是全球唯一量产 IMG DXD 架构 GPU。核心优势在于唐志敏的技术领袖地位 + 图形渲染差异化路线。最大风险是历史遗留问题(被执行记录)、资金链脆弱、商业化放量待验证。“生存者偏差”故事,但能否持续活着仍需观察。 |
| 16 | 登临科技 | ⚡ GPU+ 异构路线,能效比 3 倍于通用 GPU。Goldwasser 系列已数万片出货,高通创投持续加持。拟 2026 年赴港 IPO。核心优势在于 GPU+ 片内异构架构在边缘推理场景的能效比优势。避开训练主战场,深耕边缘推理利基市场,定位清晰但天花板较低。 |
| 17 | 芯瞳半导体 | 🔬 信创图形 GPU 细分赛道第二梯队。CQ2040 对标 GT1030,功耗仅 10W。GB3000 在研,目标对标 RTX 4070 Ti。大胜达 5.5 亿注资附带严格对赌。核心风险在于 GB3000 流片成败决定公司生死。“以小博大”的赌注,流片成功则跃升,失败则边缘化。 |
| 18 | 芯原股份 | 🧬 国产 GPU 生态的”卖水人”——GPU IP 授权龙头。Vivante GPU IP 累计出货超 20 亿颗,Vitality 架构支持 DirectX 12。GPGPU-AI IP 落地汽车和边缘服务器。核心优势在于 IP 授权商业模式的稳定性和广泛生态触达。不直接做 GPU 芯片,但几乎所有国产 GPU 公司都直接或间接受益于芯原 IP。 |
| 19 | 格兰菲 | 🏭 兆芯生态体系下的 GPU”拼图”。Arise-GT10C0 28nm,支持 DirectX 11,定位信创桌面和商业显示。IPO 辅导中。核心优势在于兆芯 CPU + GPU 的协同生态。技术代差明显(28nm vs 主流 7nm),但信创市场有其生存空间。 |
| 20 | 龙芯中科 | 🔧 CPU 自主生态的 GPU 补全者。9A1000 对标 AMD RX550,定位入门级独显和终端 AI 推理(32 TOPS)。采用高自主工艺流片。核心优势在于 LoongArch 自主指令集 + CPU+GPU 自主配套。GPU 起步最晚,但自主可控程度最高,适合信创特定场景。 |
| 21 | 奕斯伟计算 | 🌱 RISC-V 赛道巨头,GPU 布局尚不清晰。京东方创始人王东升领衔,累计融资 130+ 亿。目前公开披露的 GPU 相关业务有限,主要聚焦 RISC-V CPU + NPU 边缘计算。若未来发布独立 GPU 产品,将成为重要变量,但当前 GPU 属性弱。 |
| 分类 | 厂商 | 特征 |
|---|---|---|
| 全功能 GPU(图形渲染 + AI 计算) | 摩尔线程、沐曦、瀚博半导体、芯动科技 | 具备完整图形渲染管线 + GPGPU 通用计算能力,路线最接近 NVIDIA |
| 纯图形 GPU(渲染为主) | 景嘉微、砺算科技、象帝先、格兰菲、芯瞳半导体 | 专注图形渲染,AI 能力较弱或起步中,面向信创/消费/军工 |
| GPGPU(通用计算,兼容 ROCm/CUDA) | 海光 DCU、天数智芯、壁仞科技 | 专注并行计算,无图形硬管线,兼容 CUDA/ROCm 生态 |
| AI 专用加速器(DSA/ASIC 路线) | 华为昇腾、寒武纪、燧原科技、昆仑芯、登临科技 | 自研非 CUDA 架构,针对 AI 推理/训练优化,能效比高但通用性弱 |
| GPU IP 供应商 | 芯原股份 | 不直接出货 GPU 芯片,授权 GPU IP 给其他芯片设计公司 |
| CPU 厂商的 GPU 延伸 | 龙芯中科、阿里平头哥 | CPU 厂商向 GPU 领域延伸,形成 CPU+GPU 自主配套 |
| SoC 内 GPU/NPU 融合 | 瑞芯微、全志、晶晨、奕斯伟计算 | 在 SoC 中集成 GPU/NPU IP,面向端侧 AIoT,非独立 GPU 芯片 |
这三家公司是国产 AIoT SoC 芯片龙头,在 SoC 内部集成了 GPU 和 NPU IP,但 不生产独立 GPU 芯片:
| 公司 | 2025 年营收 | 核心产品 | GPU/NPU 能力 |
|---|---|---|---|
| 瑞芯微 | 44.02 亿元 [12291] | RK3588 / RK3688 | 自研 NPU(支持 3B 参数级端侧模型),ARM Mali GPU |
| 晶晨股份 | ~70 亿元(估算) | 智能机顶盒/电视 SoC | ARM Mali GPU,视频编解码为核心 |
| 全志科技 | ~27 亿元(估算) | 智能应用处理器 SoC | ARM Mali GPU + 自研 NPU(1 TOPS 级) |
它们在 端侧 AI 推理(机器人、智能座舱、AIoT)领域与部分 GPU 厂商存在间接竞争,但不属于独立 GPU 赛道。在 AI 大模型推理向边缘迁移的趋势下,这三家公司的 SoC 路线可能成为端侧 AI 推理的重要补充力量。
国产 CPU 六大厂商(鲲鹏、飞腾、海光、龙芯、兆芯、申威)与国产 GPU 的适配关系已基本打通:
下一篇:厂商分类与生态位 —— 按技术路线和产业链角色进行深度归类与定位分析。
按技术路线(全功能GPU、GPGPU、AI加速器、GPU IP、SoC融合)进行归类,并定位其在产业链中的角色
将国产GPU/AI加速器厂商按核心技术路线归类,可以形成五条清晰的分野:全功能GPU、GPGPU、AI专用加速器、GPU IP、以及SoC融合。本节的任务是将这一技术分类投射到产业地图上,厘清各厂商在产业链中的角色与生态位。
| 技术路线 | 核心特征 | 图形固定管线 | 计算模型 | 典型代表 |
|---|---|---|---|---|
| 全功能GPU | 图形渲染+AI计算双全 | ✅ 完整 | SIMT + 张量单元 | 摩尔线程、景嘉微、象帝先、砺算、芯动、瀚博 |
| GPGPU | 通用并行计算,去图形化 | ❌ | SIMT + 张量单元 | 海光DCU、天数智芯、沐曦、壁仞、登临 |
| AI专用加速器 | 矩阵计算极致优化,领域专用 | ❌ | 脉动阵列/自研DSA | 华为昇腾、寒武纪、燧原、昆仑芯、平头哥真武 |
| GPU IP | 对外授权GPU核心IP | 视被授权方而定 | 视架构而定 | 芯原股份、Imagination中国 |
| SoC融合 | GPU/NPU集成于应用处理器 | 轻量级 | 集成IP | 瑞芯微、全志、晶晨、飞腾、龙芯 |
关键洞察:五条路线并非互不相干。全功能GPU厂商天然具备向下覆盖GPGPU市场的能力(摩尔线程MTT S4000/S5000就是典型),而纯GPGPU厂商若想补齐图形能力,需回头补上ROP/TMU/Rasterizer等固定功能硬件和完整的图形驱动栈——这通常需要2-3代产品周期和数百人年的软件投入。因此,路线选择本质上是一个不可逆的战略决策。
全功能GPU是国产阵营中最稀缺的物种,要求同时掌握图形渲染管线、SIMT通用计算、张量加速和完整的图形API驱动栈。目前国内真正具备此能力的厂商不超过5家。
阵营成员与生态位:
| 厂商 | 架构来源 | 最新制程 | 图形API覆盖 | AI算力(峰值) | 生态位定位 |
|---|---|---|---|---|---|
| 摩尔线程 | 自研MUSA | 未公开 | DX12/Vulkan 1.3/OpenGL 4.6 | 1024 TFLOPS (FP8, S5000) | 全场景GPU平台,唯一对标NVIDIA全栈 |
| 景嘉微 | 自研JM系列 | 未公开 | DX11/Vulkan 1.3/OpenGL 4.6 | 6 TFLOPS (FP32, JM11) | 信创桌面+云渲染,军用→民用拓展 |
| 象帝先 | Imagination DXD | 5nm | DX12/Vulkan 1.3/OpenGL 4.6 | 160 TFLOPS (FP32, 伏羲A0) | 高端图形渲染,光追+超分 |
| 砺算科技 | 全自研天图 | 6nm | DX12 Ultimate/Vulkan 1.3 | 融合AI推理 | 消费级+专业级自研GPU |
| 芯动科技 | Imagination→自研+RISC-V | 未公开 | DX12/Vulkan 1.2/OpenGL 4.6 | 78 TFLOPS (FP32, 风华3号) | 数据中心全功能GPU+IP |
| 瀚博半导体 | 自研VUCA | 7nm | 图形渲染(SG100) | 200 TOPS (INT8, SV100) | 云端渲染+AI推理双引擎 |
摩尔线程 是国内唯一在AI计算、图形渲染、游戏显卡、视频编解码四个维度同时对标NVIDIA的厂商。其MUSA架构已迭代至第五代“花港”,2025年发布的MTT S90游戏卡实测性能媲美RTX 4060 [12723]。在AI侧,S5000的DeepSeek R1推理性能达到H100约61% [12687]。2025年12月科创板上市后市值飙升,成为国产GPU赛道龙头 [12441]。生态位:全栈平台型,类似于NVIDIA在中国市场的投影。
景嘉微 走“从专用走向通用”路线,JM5400→JM7200→JM9→JM11→JM1100,JM11系列已实现6 TFLOPS FP32、192 GPixel/s像素填充率,支持SR-IOV硬件虚拟化 [13058]。景宏系列AI加速卡填补了AI训练/推理空白 [12977]。生态位:信创GPU核心供应商,在党政军市场有不可替代性。
象帝先 2024年一度解散,后获数亿元融资复活,2025年伏羲A0完成5nm流片验证,FP32算力160 TFLOPS,支持实时光追和超分,已适配《黑神话:悟空》[14029]。生态位:高端图形GPU的潜力挑战者,但供应链高度依赖海外,商业化基础薄弱。
砺算科技 是国内唯一完全不依赖第三方GPU IP的图形GPU厂商,核心团队来自原S3 Graphics,具备原生DX12底层能力 [14652]。第一代天图架构融合图形渲染+AI推理,支持硬件光追,性能对标RTX 4060 [14662]。2025年7月芯片点亮,2026年3月正式发售 [14632]。生态位:自研GPU IP的稀缺标的,更可能的价值兑现路径是被大厂并购或成为GPU IP供应商。
芯动科技 以高速接口IP起家,GPU路线从Imagination授权起步,到风华3号实现自研内核+RISC-V CPU的全国产底座,单卡显存112GB+、FP32算力78 TFLOPS,支持CUDA兼容 [14698]。生态位:GPU基础设施供应商,其HBM3E/GDDR6X/UCIe Chiplet等高速接口IP的深厚积累是核心竞争力,GPU芯片是其IP能力的“展示窗口”。
瀚博半导体 从AI推理芯片SV100(DSA路线)起步,2023年推出SG100全功能GPU(7nm,集渲染+AI+视频于一体),在云手机、云游戏、云桌面等云端渲染场景形成差异化 [15146]。2025年完成DeepSeek适配并启动科创板IPO辅导 [15443]。生态位:云端渲染+AI推理融合方案商。
GPGPU厂商放弃图形渲染固定功能硬件,将全部晶体管预算用于SIMT通用计算核心和张量加速单元,以换取更高的AI/HPC计算密度。这一选择使它们彻底放弃了消费级显卡、云游戏、数字孪生等图形市场。
阵营成员与生态位:
| 厂商 | 架构 | 最新制程 | 软件生态策略 | 代表产品峰值算力 | 生态位定位 |
|---|---|---|---|---|---|
| 海光DCU | AMD授权+自研 | 7nm→5nm | DTK+ROCm兼容,“类CUDA” | 256 TFLOPS (FP16, DCU 8200) | 信创HPC+AI训练,国产GPGPU出货量最大 |
| 天数智芯 | 自研天垓系列 | 7nm | 自研软件栈,兼容主流框架 | 147 TFLOPS (FP16, 天垓100) | 通用GPGPU,覆盖训推全场景 |
| 沐曦 | 自研XCORE | 7nm(C500)→国产(C600) | MXMACA®,全面兼容CUDA | 1000 TFLOPS (FP8, C600) | 训推一体GPGPU,国产供应链 |
| 壁仞科技 | 自研壁立仞 | 7nm(台积电) | BIRENSUPA,自研编程模型 | 1000+ TFLOPS (FP16, BR100) | 大算力GPGPU,Chiplet技术 |
| 登临科技 | 自研GPU+ | 12nm | 硬件兼容CUDA/OpenCL | 512 TOPS (INT8, Goldwasser XL) | 软件定义异构,推理能效比 |
海光DCU 的独特优势在于技术兼容性:通过DTK+ROCm兼容实现“类CUDA”环境,CUDA代码迁移效率可达85%,迁移成本最低仅需15人天 [12747];商业上,海光信息2024年营收91.6亿元,DCU在运营商、金融等关键行业渗透率32% [12889]。深算系列已迭代至三号(5nm、512 TFLOPS目标),四号在研 [12884]。生态位:信创GPGPU主供应商,但底层架构源头来自AMD,技术迭代自主性存在隐忧。
天数智芯 2026年1月首次系统性披露了以北斗七星命名的四代架构路线图:天枢(2025,超越H200)→天璇(2026,对标B200)→天玑(2026,超越Blackwell)→天权(2027,超越Rubin)[13686]。2026年1月港股上市,成为首家登陆港股的国产通用GPU企业 [13221]。2024年国内GPGPU出货排名第三,累计出货超5.3万片 [13650]。生态位:GPGPU第二梯队领先者,港股上市后资金充裕,但品牌认知和客户规模仍落后于海光。
沐曦 2025年发布的曦云C600是国产GPGPU中首个宣称“全流程国产化”的产品——从IP设计到晶圆制造到封装测试 [13492]。FP8峰值算力1000 TFLOPS,144GB HBM3e,性能对标Hopper系列 [13502]。代价是卡间互联带宽略有下降、功耗提升 [13504]。2025年12月科创板上市 [13261]。生态位:国产GPGPU供应链自主化先锋,在美国制裁持续收紧的背景下,这可能是长期出路。
壁仞科技 BR100以770亿晶体管、1074mm²双die、2.5D CoWoS-S封装,创下国产GPU芯片的多个“之最” [13148]。但2023年10月被列入美国实体清单后,台积电停止代工,壁仞被迫转向国产代工渠道 [13330]。2026年1月港股上市,2025年全年营收10.4亿元,同比增长207% [13454]。生态位:大算力GPGPU的激进探索者,Chiplet技术路线在制裁后成为“沉重的遗产”,BR20X/BR200系列能否在国产供应链上实现是其生死线。
登临科技 的GPU+架构是国产GPGPU中最独特的存在:通过软件定义片内异构,在硬件层面兼容CUDA/OpenCL的同时,实现3倍以上的能效比优势 [14813]。第二代Knuth KS系列(KS20/KS38/KS58)单卡最高128GB显存,可单卡加载Qwen3 235B模型 [15521]。但第一代产品采用12nm成熟工艺,性能天花板明显 [15048]。生态位:推理GPGPU的能效专家,在边缘推理和云端推理场景有独特优势。
AI专用加速器(DSA/NPU)是国产AI芯片中出货量最大、商业化最成熟的阵营。它们放弃图形渲染能力和SIMT通用编程模型,将所有晶体管预算用于最大化矩阵乘法吞吐量,在AI推理场景下每瓦性能和每美元性能远超GPU。
阵营成员与生态位:
| 厂商 | 架构 | 自研指令集 | 软件框架 | 最新旗舰 | 生态位定位 |
|---|---|---|---|---|---|
| 华为昇腾 | 达芬奇→SIMD/SIMT | ✅ | CANN+MindSpore | 910C (800 TFLOPS FP16) | 国产AI芯片绝对龙头,全栈自研 |
| 寒武纪 | MLUarch05 | ✅ | NeuWare+Torch-MLU | 思元590 (345 TFLOPS FP16) | 云端训推一体,上市AI芯片第一股 |
| 燧原科技 | GCU-CARE | ✅ | 驭算TopsRider | L600 (144GB, FP8原生) | 腾讯深度绑定,推理→训推一体 |
| 百度昆仑芯 | XPU-P | ✅ | XPU SDK+飞桨 | P800 (345 TFLOPS FP16/BF16) | 百度系,万卡集群,超节点 |
| 阿里平头哥 | 自研PPU | ✅ | 全栈自研 | 真武810E (96GB HBM2e) | 阿里云自用+外部,出货数十万片 |
华为昇腾 是国产AI芯片中唯一具备“芯片→互联→集群→框架→应用”全栈能力的厂商。2025年9月公布三年路线图:950PR(2026Q1,1 PFLOPS FP8)→950DT(2026Q4)→960(2027Q4)→970(2028Q4)[12508]。2025年8月CANN全面开源,标志着昇腾从“硬件追赶”向“生态引领”的战略转折 [12834]。910B在2024年出货超64万片,占国产AI芯片市场23%份额 [13039]。生态位:国产AI算力基础设施的定海神针,通过超节点技术弥补单芯片差距,最大风险在于先进制程受限和HBM供应瓶颈,但华为自研HBM(HiBL 1.0)将于950系列搭载,有望突破 [12513]。
寒武纪 是国内AI芯片公司中“学术血统”最纯正的——源自中科院计算所,创始人为陈氏兄弟。2025年迎来业绩爆发:Q1营收11.11亿元(同比+4230%),H1营收28.81亿元,首次实现全年盈利 [12608]。思元590的TPP达4493,超过H20的2368 [12626]。核心客户字节跳动占2025Q1营收96.48% [12590]。生态位:云端AI训推芯片的核心供应商,但高度依赖单一客户,思元690(在研,目标H100约80%)将是检验其长期竞争力的关键 [12587]。
燧原科技 2024年做出“All In推理”的战略选择,暂停训练卡,年底在甘肃庆阳建成万卡推理集群 [13182]。2025年7月以L600(邃思400)重回训推一体市场,144GB显存、3.6 TB/s带宽、原生FP8,对标H20 [13607]。腾讯为最大客户(收入占比约70%+),深度参与6轮融资 [13165]。生态位:腾讯系AI算力的首选供应商,独立性和DSA路线不兼容CUDA是其隐忧。
百度昆仑芯 2025年2月点亮国内首个自研万卡集群(P800),随后扩展至三万卡集群 [13541]。P800的FP16/BF16算力345 TFLOPS,超越H20的148 TFLOPS [13671]。2025年11月公布“五年五芯”计划:M100(2026)→M300(2027)→N系列(2029)[13725]。2025年营收预计35-50亿元,接近盈亏平衡 [13527]。生态位:百度AI生态的算力基石+外部推理市场的新锐力量,已中标中国移动十亿级集采 [13560]。
阿里平头哥真武 从2020年秘密立项,直到2025年9月央视《新闻联播》才“意外”曝光,2026年1月平头哥官网上线产品信息 [13879]。截至2025年底,总出货量达数十万片,超越寒武纪,在国产GPU厂商中领先 [13890]。2026年5月发布真武M890(性能为810E的3倍,144GB HBM),并公布V900(2027)、J900(2028)路线图 [14239]。生态位:阿里云AI基础设施的“核武器”,走“谷歌TPU模式”——自研芯片+自用+有限外部销售,在国产阵营中可能仅次于华为昇腾。
GPU IP是整条产业链最上游的环节,决定了有多少公司能够“站在巨人的肩膀上”进入GPU市场,也决定了国产GPU自主可控的“根”有多深。
芯原股份(VeriSilicon) 是中国最大的芯片设计IP供应商,也是国内唯一进入全球前十的IP公司。其GPU IP产品线涵盖从低功耗嵌入式到高性能计算的完整谱系,中国大陆绝大多数SoC厂商的GPU/NPU IP的核心来源。瑞芯微、全志、晶晨等头部SoC厂商的NPU均大量采用芯原IP [14904]。生态位:国产GPU IP的核心供应商,其IP授权模式降低了GPU创业门槛,但也导致部分依赖芯原IP的厂商在架构自主性上存在隐患。
Imagination Technologies(中国) 作为英国GPU IP巨头,通过授权支撑了多家中国GPU厂商的起步:象帝先(盘古/伏羲架构基于Imagination DXD)、芯动科技(风华1号/2号基于Imagination BXT)。Imagination的DXD架构是全球唯一能与ARM Mali、Qualcomm Adreno在移动/嵌入式GPU领域竞争的第三方IP。生态位:中国GPU产业的重要“外援”,但地缘政治风险不可忽视,长期必须走向自研架构——这正是象帝先从盘古(Imagination)走向伏羲(DXD深度定制)再到神农(规划自研)的演进逻辑 [14001]。
SoC融合阵营的厂商不单独销售GPU芯片,而是将GPU/NPU IP集成到应用处理器中,面向智能终端、边缘计算、AIoT等场景。它们是国产GPU生态的“毛细血管”——虽然单颗芯片的GPU算力有限,但总出货量以亿计,构成了国产GPU最广泛的应用基础。
瑞芯微 以RK3588(8nm,6 TOPS NPU)为旗舰,2025年发布“贡嘎”协处理器系列(RK1820/RK1828,20 TOPS),标志着其从SoC内部的NPU走向独立的端侧算力加速器,可与RK3588等主控通过PCIe组合,形成“主控+协处理器”的算力叠加方案 [15333]。下一代RK3688(2026年,预计16+ TOPS NPU)将进一步冲击高端 [15482]。生态位:边缘AI算力平台供应商,从0.2 TOPS到20 TOPS全覆盖,在机器人、智能座舱等新兴场景中占据先机。
晶晨半导体 以S905X5(6nm)成为业界首款6nm商用芯片,2025年出货近900万颗,预计2026年突破千万颗 [15342]。其NPU算力虽不高(1-5 TOPS),但凭借先进制程带来的功耗优势,在智能电视和机顶盒市场占据主导地位。生态位:消费电子AI SoC的全球竞争者,6nm量产经验为国产芯片供应链提供了宝贵验证。
全志科技 以A733(12nm,集成BXM-4-64 GPU,3 TOPS NPU)和T527(八核A55,2 TOPS NPU)等芯片,覆盖平板、AI眼镜、边缘计算等场景,V821已量产用于AI眼镜,出货近百万台 [15304]。生态位:在AIoT和智能穿戴领域具备差异化优势,与瑞芯微形成互补竞争。
飞腾 和 龙芯 作为CPU厂商,通过集成GPU和与国产独立GPU适配,构建“CPU+GPU”的国产计算平台。飞腾S5000C/D3000等已与摩尔线程、景嘉微等GPU完成适配,龙芯则走得更远——自研GPGPU核心LG100/LG200,9A1000专用GPGPU芯片已于2025年12月交付流片,9A2000规划中性能为9A1000的8-10倍 [14981]。生态位:国产计算平台的集成者,龙芯的“CPU+自研GPGPU”路线对标Intel的“CPU+iGPU”模式,长期具备体系化竞争潜力。
┌─────────────────────────────────────┐
│ GPU IP 层(上游水源) │
│ 芯原股份 │ Imagination中国 │
└──────────────┬──────────────────────┘
│ IP授权
┌────────────────────────┼────────────────────────────┐
│ │ │
┌─────▼──────┐ ┌──────▼──────┐ ┌───────▼──────┐
│ 全功能GPU │ │ GPGPU │ │ AI加速器 │
│ │ │ │ │ │
│ 摩尔线程 ★ │ │ 海光DCU ★ │ │ 华为昇腾 ★★★ │
│ 景嘉微 ★ │ │ 天数智芯 ★ │ │ 寒武纪 ★★ │
│ 象帝先 │ │ 沐曦 ★ │ │ 燧原科技 ★ │
│ 砺算科技 │ │ 壁仞科技 ★ │ │ 昆仑芯 ★★ │
│ 芯动科技 │ │ 登临科技 │ │ 平头哥 ★★ │
│ 瀚博半导体 │ │ │ │ │
└──────┬─────┘ └──────┬──────┘ └──────┬───────┘
│ │ │
└───────────────────────┼──────────────────────────┘
│ 芯片供应
┌──────────────▼──────────────────────────┐
│ SoC融合层(终端毛细血管) │
│ 瑞芯微 │ 全志科技 │ 晶晨 │ 飞腾 │ 龙芯 │
└─────────────────────────────────────────┘
│
┌──────────────▼──────────────────────────┐
│ 最终应用场景 │
│ 智算中心 │ 云服务 │ AI大模型 │ HPC │ 图形 │
└─────────────────────────────────────────┘
注:★数量表示该厂商在所属路线中的综合竞争力(三星为最高,未标星表示尚在早期阶段或数据不足)。
“全功能GPU是终点,但大多数人会在中途倒下”:全功能GPU同时覆盖图形、AI、HPC、视频四大场景,拥有最广阔的市场空间,但图形驱动的开发工作量是纯计算驱动栈的3-5倍,且需要多年的游戏/应用生态积累。选择GPGPU或DSA的公司,未来补齐图形能力所需的代价将远超当初“节省”的成本。
“AI加速器的商业窗口期可能比想象的更短”:华为昇腾CANN全面开源 [12834] 和百度昆仑芯的“类CUDA”策略 [13552],正在模糊DSA和GPGPU之间的软件生态界限。未来3年,AI加速器阵营和GPGPU阵营的竞争将不再是“架构之争”,而是“生态之争”——谁拥有更大的开发者基数、更多的模型适配、更低的迁移成本,谁就能胜出。
“GPU IP的自主可控,比GPU芯片的自主可控更重要”:芯原的GPU IP在国内SoC市场占主导地位,但其底层架构的自研程度仍需进一步核验。砺算科技的全自研TrueGPU天图架构是目前国产GPU IP中最具自主性的代表 [14654],但公司规模尚小。中国GPU产业真正的“卡脖子”不在芯片制造,而在GPU IP——如果无法从指令集层面实现自主可控,所有的“国产GPU”都只是不同程度的“二次开发”。
“SoC融合阵营是即将爆发的‘暗线’”:随着端侧大模型(1B-7B参数)的快速普及,SoC内部的GPU/NPU正在从“配角”走向“主角”。瑞芯微的贡嘎协处理器和龙芯的9A1000 GPGPU,本质上都是在回应同一个趋势:边缘AI算力需求正在从“可选项”变为“必选项”。这条赛道上的竞争格局尚未固化,可能孕育出新的百亿级公司。
本节内容基于截至2026年6月的公开信息。国产GPU行业变化极快,部分公司的技术路线和产品状态可能在短期内发生重大变化。
深度分析公司概况、团队、产品、技术特点、软件生态、商业化、财务、竞争力、短板、供应链风险、未来3年判断
定位:中国 AI 算力基础设施的绝对核心——从芯片到超节点再到百万卡集群的全栈自研方案。
核心判断:昇腾是中国唯一具备“全栈自主 + 大规模商业化 + 持续迭代”能力的 AI 加速器厂商,但制程与 HBM 的物理约束决定了其单芯片性能永远追不上 NVIDIA,只能通过系统级创新和规模效应在特定市场实现替代。
华为昇腾并非独立公司,而是华为内部昇腾计算业务线,芯片由海思半导体设计。昇腾 AI 芯片的起点是 2018 年 10 月华为全联接大会,徐直军正式发布昇腾 910 和昇腾 310,标志着华为以自研 达芬奇架构 全面进入 AI 芯片赛道 [17985]。昇腾业务线由 华为昇腾计算业务总裁张迪煊 负责端到端管理,昇腾芯片产品总经理为 王晓雷,达芬奇架构总架构师是 华为海思首席科学家廖恒博士 [18411]。
昇腾计算体系包含四层全栈方案 [17997]:
截至 2025 年底,昇腾已汇聚 400 万开发者,发展 3,000+ 合作伙伴,孵化 6,700+ 行业解决方案 [18381]。华为 2025 年年报显示,计算产业“抓住人工智能机会”实现快速增长,集团总营收 8,809 亿元,研发投入 1,923 亿元(占营收 22%)[17344]。
昇腾团队的核心特征是 “华为体系 + 自研深度”。不同于国内多数 GPU 创业公司从 NVIDIA/AMD 挖角,昇腾依赖华为内部培养的芯片与软件人才,配合达芬奇这一真正自研架构,形成“从沙子到软件”的完全自主技术栈。核心成员包括:
| 角色 | 姓名 | 背景 |
|---|---|---|
| 战略推动者/最高决策者 | 徐直军 | 华为轮值董事长,1967 年生,博士,1993 年加入华为,同时担任海思半导体董事长 [18255] |
| 昇腾计算业务总裁 | 张迪煊 | 负责昇腾 AI 产业端到端管理 [18411] |
| 昇腾芯片产品总经理 | 王晓雷 | 负责昇腾芯片产品线 [18419] |
| 达芬奇架构总架构师 | 廖恒 | 华为海思首席科学家,2019 年 Hot Chips 大会首次公开介绍达芬奇架构 [18431] |
| 华为首席战略架构师 | 党文栓 | 深度参与昇腾芯片战略规划 [18438] |
| 昇思 MindSpore 架构师 | 苏腾 | 浙江大学博士,MindSpore 超大规模 AI 技术负责人,近两年孵化了 20+ 大模型 [18358] |
| 计算产品线总裁 | 张熙伟 | 负责鲲鹏、昇腾、欧拉、CANN 和昇思五大根技术 [18428] |
| 时间 | 里程碑 |
|---|---|
| 2018 年 10 月 | 华为全联接大会 2018,发布昇腾 910 和昇腾 310,正式公布达芬奇架构 [17985] |
| 2019 年 8 月 | 昇腾 910 正式商用,7nm EUV(台积电 N7+),FP16 256 TFLOPS [18437] |
| ~2020-2022 年 | 受美国制裁,台积电断供,华为转向中芯国际(SMIC)N+1 工艺,推出昇腾 910B [18312] |
| 2024 年 Q4 | 昇腾 910C 样片发放,双 Die Chiplet 合封两颗 910B [17149] |
| 2025 年 Q1 | 910C 正式量产,5 月起大规模出货 [17162] |
| 2025 年 8 月 | CANN 全面开源开放,Mind 系列应用使能套件同步开源 [17287] |
| 2025 年 9 月 | 华为全联接大会 2025,首次公布三年芯片路线图:950PR(2026Q1)、950DT(2026Q4)、960(2027Q4)、970(2028Q4),提出“一年一代、算力翻倍” [18369] |
| 2025 年全年 | 昇腾 910 系列出货量约 70-80 万颗,AI 芯片营收约 75 亿美元 [17331] |
| 2026 年 Q1 | 昇腾 950PR 推出,首次搭载华为自研 HBM(HiBL 1.0),FP8 算力 1 PFLOPS [17168] |
| 2026 年 Q4 | 昇腾 950DT 计划推出,自研 HiZQ 2.0 HBM,144GB/4 TB/s [17129] |
910C 本质上是两颗 910B 芯片通过 Chiplet 封装合封的产物,用 “面积换算力” 的方式在 7nm DUV 工艺下实现性能提升 [17157]。
| 参数 | 规格 |
|---|---|
| 架构 | 达芬奇第二代,SIMD/SIMT 混合执行 |
| 制程 | SMIC N+2(等效 7nm,DUV 多重曝光)[17149] |
| 晶体管数 | ~530 亿 [17149] |
| 封装 | 双 Die Chiplet,两颗 910B 合封,国产 CoWoS 类封装 [17157] |
| FP16 算力 | ~800 TFLOPS [17150] |
| 显存 | 96–128 GB HBM2e [17130] |
| 显存带宽 | 约 3.2 TB/s(部分来源称 1.8 TB/s,可能为单 Die 带宽)[17150] |
| TDP | ~550W [17843] |
| 性能对标 | 约 NVIDIA H100 的 80%(FP16 理论算力),推理约 60% [17128] |
⚠ 数据矛盾:关于 910C 的显存带宽,部分来源给出 1.8 TB/s [17130],而主流分析采用 3.2 TB/s [17150]。这一差异可能源于双 Die 合并计算方式的不同——若每个 Die 独立访问自己的 HBM 栈,有效带宽取决于 NUMA 访问模式。架构师建议以 3.2 TB/s 为理论峰值,实际应用受限于跨 Die 通信开销。
950PR 是昇腾从“能用”走向“好用”的关键转折,首次引入 SIMD/SIMT 同构设计,并搭载自研 HBM [17168]。
| 参数 | 规格 |
|---|---|
| 架构 | 第三代达芬奇,SIMD/SIMT 同构,新增 Regbase 编程范式 [17168] |
| 制程 | SMIC N+3(等效 5nm,DUV + SAQP 四重曝光),良率 80%+ [17860] |
| 芯片设计 | 2×计算 Die + 2×I/O Die [17782] |
| FP8 算力 | 1 PFLOPS [17168] |
| FP4 算力 | 2 PFLOPS [17168] |
| 显存 | 128 GB HiBL 1.0(华为自研 HBM)[17171] |
| 显存带宽 | 1.6 TB/s [17171] |
| TDP | 600W [17799] |
| 定价 | ~7 万元人民币/卡,约为 NVIDIA H200 的 1/3 [17796] |
| 定位 | 推理 Prefill 阶段 + 推荐系统 |
| 参数 | 规格 |
|---|---|
| 显存 | 144 GB HiZQ 2.0(自研 HBM 第二代)[17129] |
| 显存带宽 | 4.0 TB/s [17129] |
| FP8 算力 | 2 PFLOPS [17781] |
| 定位 | 推理 Decode + 大模型训练 |
⚠ Ascend 910D:传闻 2026 Q2-Q3 量产,5nm 制程,4-Die 封装,支持 FP8,目前公开信息有限,需进一步核验 [17156]。
达芬奇架构是华为自研的 特定域架构(DSA),核心创新在于 3D Cube 矩阵计算单元——一个时钟周期内完成 16×16×16 矩阵乘加(4,096 次 MAC 操作),相比传统 1D/2D MAC 阵列实现数量级提升 [18118]。三大计算单元独立流水线 [18120]:
达芬奇核心分为五个等级(Max/Lite/Mini/Tiny/Nano),支持从 IoT 端侧到云端数据中心的 全场景 平滑扩展 [17993]。
从 950PR 开始的第三代达芬奇架构,最重要的变化是 SIMD/SIMT 同构设计,新增 Regbase 编程范式 [17168]。这意味着华为终于开始向 GPU 式的编程模型靠拢,大幅降低 CUDA 代码迁移成本。配合自研 HBM(HiBL 1.0)和国产 5nm 工艺,950 系列是昇腾“从能用走向好用”的关键转折。
此外,950 系列针对 MoE 模型做了专门优化,向量计算单元重构和内存访问粒度优化使稀疏激活计算效率提升 40% 以上。华为测试数据显示,950DT 在 DeepSeek V3 模型训练中,单卡迭代速度较 910C 提升 2.3 倍 [18010]。
CANN(Compute Architecture for Neural Networks)是昇腾全栈方案中的异构计算架构层,定位对标 NVIDIA CUDA。2025 年是 CANN 生态的“分水岭”之年:
| 节点 | 关键动作 |
|---|---|
| 2025 年 8 月 | CANN 全面开源,Mind 系列套件同步开源 [17287] |
| 2025 年 9 月 | CANN 技术指导委员会(TSC)成立 [17298] |
| 2025 年 9-12 月 | 算子库、通信库、图引擎、Ascend C、运行时等全部代码上仓 GitCode [17290] |
| 2026 年 2 月 | 开源完成,60+ 客户/伙伴基于 CANN 自主打造 420+ 高性能算子 [17290] |
CANN 版本迭代节奏:8.0(2024)→ 8.2(2025)→ 8.5.0 → 9.0.0(2026,配套 MindSpore 2.9.0),平均每季度一次大版本 [17463]。
CANN 已支持的框架/库 [17245]:
PrivateUse1 机制无缝集成)MindSpore 2.9.0(2026 年最新)核心创新 [17443]:
| 工具 | 功能 | 对标 |
|---|---|---|
| MindSpeed | 大模型训练加速库 | NVIDIA NeMo/Megatron |
| MindIE / MindIE Motor | 推理引擎 + 推理服务加速库 | NVIDIA TensorRT/Triton |
| CATLASS | 算子模板库 | NVIDIA CUTLASS |
CANN 软件栈兼容性约 95%,与 CUDA 生态积累仍有差距 [18390]。主要短板:
架构师判断:CANN 开源是华为在 AI 生态上最正确的战略决策。CUDA 的护城河不在于技术本身,而在于 先发优势和生态锁定。CANN 开源 + PyTorch 兼容路线,本质上是“用开源对抗封闭、用兼容降低迁移成本”——这是当前唯一可行的路径。但生态建设需要时间,CUDA 花了 15 年才建成今天的地位,CANN 至少还需要 3-5 年。
值得一提的是,智谱 AI 已在昇腾芯片上使用 MindSpore 框架训练出对标 GPT-5.2 和 Claude Opus 4.5 的模型,零 NVIDIA 依赖——这是昇腾生态的一个里程碑式验证 [17188]。
| 指标 | 2025 年 | 2026 年(预测) |
|---|---|---|
| 昇腾 AI 芯片营收 | ~75 亿美元(约 540 亿元人民币)[17345] | 目标 120 亿美元(约 870 亿元),同比 +60% [17345] |
| 华为集团总营收 | 8,809 亿元(净利 680 亿元)[17755] | — |
| 华为研发投入 | 1,923 亿元(占总营收 22%)[17344] | — |
昇腾芯片是华为增长最快的业务板块之一,徐直军明确表示“华为的 AI 变现策略聚焦于硬件”[17359]。
| 客户 | 订单规模 | 详情 |
|---|---|---|
| 字节跳动 | 2026 年超 400 亿元 | 昇腾最大单一客户,2025 年采购“近乎为零”,2026 年跃居第一 [17562] |
| 阿里巴巴 | 大规模订购 950PR | 确认采购 [17367] |
| 腾讯 | 大规模订购 950PR | 确认采购 [17368] |
| 中国移动 | 2025-2026 年 AI 集采,昇腾生态斩获 34 亿元 | 7,499 台推理 AI 服务器 [17578] |
| 年份 | 出货量 | 备注 |
|---|---|---|
| 2024 年 | ~50.7 万颗(SemiAnalysis 数据) | 以 910B 为主 [18392] |
| 2025 年 | 70-80 万颗(多来源综合) | 910C 约 30-40 万颗,910B 约 30-40 万颗 [17331] |
| 2026 年(计划) | 910C ~60 万颗 + 950PR ~75 万颗,总裸 die 最高 160 万片 [17352] |
| 时间 | 华为昇腾 | NVIDIA |
|---|---|---|
| 2024 年 | 约 NVIDIA 的 1/3 [17542] | 中国 AI 芯片市场 ~95% [17399] |
| 2025 年(H20 禁令后) | 与 NVIDIA 持平 [17542],国内份额约 35% [17778] | 降至 ~55% [17399] |
| 2026 年(预测) | 预计 50-60% [17388] | 预计降至 ~8% [17388] |
华为昇腾 并非独立公司,不单独披露财务数据,也不存在独立融资或估值。以下为公开可得的财务相关数据:
| 指标 | 数据 | 来源 |
|---|---|---|
| 2025 年昇腾 AI 芯片营收 | ~75 亿美元 | 行业分析师估计 [17345] |
| 2026 年昇腾 AI 芯片营收目标 | ~120 亿美元 | 基于已获订单 [17345] |
| 华为集团 2025 年总营收 | 8,809 亿元 | 华为 2025 年年报 [17755] |
| 华为 2025 年研发投入 | 1,923 亿元(占营收 22%) | 华为 2025 年年报 [17344] |
| 华为 ICT 基础设施营收 | 3,750.1 亿元 | 华为 2025 年年报 [17640] |
| 昇腾开发者数 | 400 万(截至 2025 年底) | 华为 2025 年报 [18380] |
⚠ 注意:华为昇腾的营收数据均为分析师估计,并非华为官方披露。120 亿为行业普遍引用的估算值,有一定参考价值但需谨慎使用。
昇腾是 中国唯一实现“芯片→CANN→MindSpore→Mind 套件→集群”全栈自研且不依赖美国技术溯源 的 AI 加速器方案。达芬奇架构完全自研,不受 NVIDIA/AMD 专利限制,在美国出口管制持续加码的背景下,这一优势是无价的。BIS 甚至将使用昇腾 910B/910C/910D 定性为“EAR 违规行为”,反而强化了其“不可替代性”[17699]。
华为通过 “超节点+集群” 架构绕开单芯片性能劣势。384 颗 910C 互联的 CloudMatrix 总算力约 300 PFLOPS,约为 GB200 NVL72 的 2 倍,内部聚合带宽超过 5.5 Pbps,scale-up 带宽是 NVL72 的 2.1 倍 [18159]。虽然功耗代价巨大(559 kW vs 145 kW,能效比差约 2.5 倍)[18156],但“以量取胜”在国产替代逻辑下是可行的。
950PR 首次搭载华为自研 HiBL 1.0 HBM,DRAM 晶圆由长鑫存储代工,标志着中国首次实现 AI 芯片用 HBM 的国产化 [17179]。这是昇腾从“受制于 HBM 供应”到“自主可控 HBM”的关键转折。
在 H20 出口受限后,中国云厂商(字节、阿里、腾讯)别无选择,只能大规模采购昇腾。字节跳动 2026 年 400 亿+ 订单即是明证 [17562]。这不是纯粹的市场竞争结果,而是 地缘政治驱动的“被动替代”——但一旦完成部署和适配,客户迁移回 NVIDIA 的成本同样巨大。
2025 年 CANN 全面开源,成立 TSC,每年投入 10 亿元支持原生开发,计划三年赋能百万原生人才 [17287]。这一策略的正确性在于:华为认清了“一家公司无法独自建立与 CUDA 抗衡的生态”,必须借助开源社区的力量。
910C(FP16 ~800 TFLOPS)约为 H100(1,979 TFLOPS)的 40%,约为 B200(FP4 9,000 TFLOPS)的 不到 10% [17150]。即使 950PR 的 FP8 算力达到 1 PFLOPS,与 B200 仍有明显差距。制程落后(7nm DUV vs 4nm EUV)是根本原因。
CANN 兼容性约 95%,但“最后 5%”往往是最难攻克的部分——涉及冷门算子、性能调优、调试工具链。实际利用率仅 35%,目标 70%,说明软件栈优化仍有巨大空间 [17958]。此外,大规模训练稳定性仍存问题,DeepSeek R2 训练延迟部分原因就是昇腾平台问题 [17380]。
CloudMatrix 384 总算力达到 GB200 NVL72 的 2 倍,但功耗 559 kW vs 145 kW,能效比差距约 2.5 倍 [18156]。在大规模智算中心部署中,电力成本是 TCO 的关键组成部分。
910C 架构原生不支持 FP8/FP4 低精度格式,而 H100 支持 FP8、B200 支持 FP4。低精度直接决定大模型训练推理的效率,这是 910C 在训练场景落后 H100 的核心原因之一 [18060]。950PR 已补齐这一短板。
910C 互联带宽 784 GB/s vs H100 900 GB/s vs B200 1.8 TB/s [18071]。950PR 互联带宽提升至 2 TB/s,但仍落后于同期 NVIDIA 产品 [17168]。
| 风险维度 | 风险等级 | 核心瓶颈 | 2025-2026 展望 |
|---|---|---|---|
| SMIC 制造良率 | 🟡 中高 | 7nm DUV 良率约 40%,目标 60% [18394] | 逐步改善但难突破 DUV 物理极限 |
| SMIC 晶圆产能 | 🟢 中 | ~45K WSPM(2025),扩至 60K(2026)[17523] | 并非最紧约束 |
| 先进制程升级 | 🔴 高 | 无 EUV,5nm 一再推迟 | 2026 年前仍困于 7nm |
| HBM 供应 | 🔴 极高 | 海外采购渠道收紧,国产 HBM3 尚未规模量产 | 最大瓶颈 [17276] |
| 先进封装 | 🟡 中高 | 盛合晶微+通富微电产能远不及台积电 | 快速扩产中,但 2026 年仍存缺口 |
| 出口管制 | 🔴 高 | BIS 将昇腾定性为“使用即违法” | 第三方渠道持续收紧 [17699] |
| 设备断供 | 🟡 中高 | DUV 存量设备可维持 2-3 年 | 2026 年后备件/维护风险上升 |
SemiAnalysis 明确指出:HBM 而非 SMIC 晶圆产能,是限制昇腾产量的最紧约束 [17276]。长鑫存储 2026 年预计仅能生产约 200 万 HBM 堆栈,仅够支撑 25-40 万颗昇腾 910C 封装 [17524]。华为自研 HBM(HiBL 1.0)的 950PR 能否如期量产,是决定 2026 年昇腾能否突破瓶颈的关键。
华为利用制裁前囤积的台积电老节点芯片裸片(鲲鹏 920/930、早期 910/910B),配合新封装释放产能压力 [17308]。这是一个“吃老本”的策略,库存耗尽后将面临更大的产能缺口。
昇腾将从“替代品”走向“主导者”——但仅限中国市场。
| 判断维度 | 预测 |
|---|---|
| 2026 年 | 950PR/950DT 量产,自研 HBM 首次商用,中国市场占有率突破 50%,营收冲击 120 亿美元 |
| 2027 年 | 960 系列推出,自研 HBM 成熟,SMIC 5nm 或良率大幅改善,有望在部分场景接近 H200 水平 |
| 2028 年 | 970 系列,百万卡集群成熟,但制程差距(无 EUV)可能达到 2 代以上(台积电 2nm vs SMIC 5nm/7nm) |
本小节所有数据截至 2026 年 6 月 18 日。营收、出货量等数据综合自多家行业分析师报告,部分为估算值,已标注来源。华为官方未单独披露昇腾芯片营收数据,使用时请注意。
平头哥真武系列芯片的独特之处,不在于它在参数表上击败了哪款NVIDIA产品,而在于它背后的“通云哥”三位一体架构——通义实验室(模型层)、阿里云(云平台层)、平头哥(芯片层)的深度耦合。这一架构在全球范围内,目前只有阿里和Google(Gemini+GCP+TPU)两家真正做到规模化落地 [18466]。
架构师洞察:这与英伟达的“芯片→卖给云厂商→云厂商适配模型”的链式分工有本质区别。“通云哥”是一种 垂直整合 模式——芯片架构设计阶段就可针对千问大模型的MoE结构、阿里云的网络拓扑和调度策略做硬件级预优化。这种协同带来的效率提升,是在芯片流片前就锁定的,而非事后调优。
真武芯片的定位介于 Google TPU的DSA(领域专用架构) 和 NVIDIA GPU的通用计算 之间。官方称为“PPU(Parallel Processing Unit)”,强调其自研并行计算架构,但确实不具备图形渲染固定功能管线 [18486]。这使得它在中国国产AI芯片光谱中占据一个独特生态位:比华为昇腾更开放(非华为体系绑定),比寒武纪更贴近云原生场景,比摩尔线程更聚焦AI。
真武芯片的真正价值,需要通过“通云哥”三维度来理解 [18464]:
| 维度 | 角色 | 与真武的协同机制 |
|---|---|---|
| 通义实验室 | 模型定义者 | 千问大模型的MoE结构、稀疏性特征在芯片设计阶段即可反馈,指导指令集硬化和算子融合 [18464] |
| 阿里云 | 算力组织者 | 智算集群的网络拓扑、虚拟化架构、调度策略与真武芯片深度协同,IO通路和功耗控制可定制优化 [18605] |
| 平头哥 | 硬件实现者 | 芯片架构针对阿里云实际负载设计,2-3年内部验证后再推向市场,产品成熟度远超同期竞品 [18457] |
这种内循环的闭环优势,在2026年5月阿里云峰会上得到了极其生动的展示:Qwen3.7-Max在无人工干预的真武M890芯片上自主运行35小时,完成了生产级AI计算内核的编写与优化,性能较官方版本提升10倍 [18558]。这既是AI能力的展示,更是真武芯片可编程性和软件栈灵活性的有力证明。
但这一模式也有代价:真武的营收高度依赖阿里云体系,外界难以清晰评估其独立盈利能力 [18530]。随着独立上市规划的推进,平头哥需要确立更清晰的关联交易定价机制,让外界相信它不只是阿里云的“成本中心” [18461]。
真武系列的发展路径,遵循一套独特的“先验证、后公开”逻辑——这在国产芯片圈几乎绝无仅有 [18457]:
| 阶段 | 时间 | 关键事件 | 战略意义 |
|---|---|---|---|
| 秘密研发 | 2020年 | 真武810立项研发 | 比含光800晚一年,平头哥已进入“大芯片”深水区 [18462] |
| 内部验证 | 2022年底-2025年初 | 完成研发和场景验证,仅在阿里内部自测 | 阿里云万卡集群提供无与伦比的“试炼场” [18457] |
| 意外曝光 | 2025年9月 | 央视《新闻联播》报道中国联通三江源项目时,画面中曝光PPU参数对比表 | 行业“公开的秘密”正式浮出水面 [18466] |
| 正式亮相 | 2026年1月29日 | 平头哥官网上线“真武810E”产品信息 | 从“内部工具”转向“公开商业化产品” [18468] |
| 加速迭代 | 2026年5月20日 | 发布真武M890,首次公布至2028年路线图 | 确立“一年一代”的公开迭代节奏 [18790] |
关键判断:从810E(2026年1月)到M890(2026年5月)仅隔4个月就发布性能3倍的产品,这不可能是全新架构设计。M890更可能是810E的“大杯版本”——更大显存(144GB vs 96GB,+50%)、更高互联带宽(800 vs 700 GB/s,+14%)、优化数据精度(新增FP4支持)[18460]。真正的架构级换代,应当看2027年Q3的V900和2028年Q3的J900 [18782]。
2026年5月发布的真武M890,是平头哥首次在产品定义中明确瞄准“Agentic AI”时代——一个Agent在执行任务时,可能在毫秒间发起数十次模型调用,对芯片的并发推理能力和通信时延提出极高要求 [18768]。
M890的关键技术特征:
| 参数 | 真武810E | 真武M890 | 提升幅度 | 战略意图 |
|---|---|---|---|---|
| 显存 | 96GB HBM2e | 144GB | +50% | 支持更大模型、更长上下文 |
| 片间互联带宽 | 700 GB/s | 800 GB/s | +14% | 提升多卡协同效率 |
| 数据精度 | FP32-FP16 | FP32→FP4 | 新增FP4 | 覆盖超低精度推理场景 |
| 配套互联芯片 | 无专用Switch | ICN Switch 1.0 | 25.6 Tbps | 64卡全带宽互联 |
| 最大互联规模 | 单机8卡 | 128卡超节点 | 16× | 一台机器跑大模型 |
| 通信时延 | 未公开 | <150ns(P2P) | 百纳秒级 | Agent并发推理的核心指标 |
M890搭配的 ICN Switch 1.0互联芯片 和 磐久AL128超节点服务器(128卡组成一台计算机),通信时延低至百纳秒级,这对Agentic时代“高频、高并发”的模型调用需求至关重要 [18553]。平头哥自研的ICN互联总线协议+PCCL通信库,对标的是NVIDIA NVLink/NVSwitch,但走的是完全自主的技术路线 [18550]。
真武系列的商业化进程,在2025-2026年实现了质的飞跃 [18692]:
| 维度 | 数据 | 时间节点 | 来源 |
|---|---|---|---|
| 累计出货量 | 56万片 | 2026年5月 | [18797] |
| 年化营收 | 突破百亿元 | 2026财年Q3 | [18700] |
| 外部客户占比 | 60%以上 | 2026年2月 | [18700] |
| 服务客户数 | 400+企业客户 | 截至2026年5月 | [18797] |
| 覆盖行业 | 20+行业 | 截至2026年5月 | [18797] |
| 中国联通三江源项目份额 | 54%(1945P/3579P FP16) | 2025年 | [18691] |
代表性客户 包括:中国联通、中国电信(运营商)、国家电网(政务)、中国科学院(科研)、小鹏汽车、比亚迪、一汽集团(自动驾驶)、浦发银行(金融)、新浪微博(互联网)等 [18452]。
关键判断:真武芯片处于“供不应求”状态,算力卡价格涨幅5%-34%仍供不应求 [18615]。这种供需失衡,一方面反映了市场对国产AI算力的旺盛需求,另一方面也暴露了产能瓶颈——台积电7nm制程的供应稳定性是最大变量。
真武系列的供应链风险,是评估其投资价值时必须正视的核心问题:
| 风险环节 | 当前状态 | 风险等级 | 潜在替代方案 |
|---|---|---|---|
| 芯片制造 | 台积电7nm代工 [18622] | 🔴 高 | 中芯国际N+2(等效7nm),但良率和产能有限 [18667] |
| HBM内存 | 三星/SK海力士HBM2e [18625] | 🟡 中高 | 国内HBM产业链尚在起步阶段,短期无法替代 |
| 先进封装 | CoWoS封装 [18666] | 🟡 中 | 国产CoWoS技术已有进展,但规模化能力待验证 |
| EDA工具 | 国际主流工具 | 🟡 中 | 若制裁升级,3nm以下先进设计可能受阻 [18611] |
| 芯片测试 | 利扬芯片(688135)[18747] | 🟢 低 | 国产化程度高,利扬35%-40%产能专供平头哥 [18703] |
2024年11月,台积电在美国压力下宣布断供中国大陆7nm及以下先进制程AI芯片 [18762]。虽然平头哥可能通过提前备货或寻找替代方案缓解短期压力,但中长期来看,制造来源的确定性是真武系列能否兑现“一年一代”路线图的前提条件 [18611]。
真武系列与NVIDIA GPU的对标,需要放在正确的参照系中理解 [18469]:
| 对标维度 | 真武810E | NVIDIA H20 | NVIDIA H100/H200 |
|---|---|---|---|
| 单卡性能 | 与H20相当 | 基准 | 远超H20(H20是H100的阉割版) |
| 显存代际 | HBM2e | HBM3 | HBM3e |
| 软件生态 | T-Head SAIL | CUDA(成熟) | CUDA(完整) |
| 图形能力 | ❌ 无 | ✅ 有 | ✅ 有 |
| 全栈整合 | “通云哥”模型+云+芯片 | 无 | 无 |
| 供货稳定性 | 台积电断供风险 | 出口管制限制 | 对中国禁售 |
核心判断:真武对标Google TPU的逻辑,比对标NVIDIA GPU更准确。两者都是“云厂商自研AI芯片→内部大规模验证→对外提供算力服务”的路径 [18558]。差异在于,Google TPU至今不对外销售芯片,而真武已开始直接卖卡——这既是商业化的优势,也意味着需要在软件生态和客户支持上投入更多。
2026年1月,阿里计划将平头哥重组为部分由员工持股的实体,随后探索IPO [18461]。这一信号意味着:
估值重估:野村证券基于2027年预测销售额的8.5倍市销率,对阿里云及平头哥整体给出约3900亿美元的估值 [18688]。市场分析认为,平头哥若独立上市,估值或占阿里总市值的6%-14% [18609]。
人才绑定:重组为员工持股公司,是留住顶尖芯片架构师最有效的“金手铐”。在国产AI芯片人才争夺白热化的背景下,这一安排至关重要 [18696]。
独立盈利能力考验:真武60%以上芯片已服务外部客户,但营收结构仍高度依赖阿里云体系。上市后,平头哥需要向市场证明自己不是“阿里的成本中心”,而是一家具备独立盈利能力的芯片公司 [18530]。
窗口期:2025年底至2026年初,摩尔线程、沐曦股份、壁仞科技相继登陆资本市场,百度昆仑芯也提交IPO申请,国产AI芯片迎来集中上市窗口期 [18692]。平头哥若抓住这一窗口期完成IPO,将获得独立融资能力,加速研发和生态建设。
2026年:真武810E持续放量,M890开始小规模部署,全年出货量有望突破100万片。软件生态仍处于追赶期,但“通云哥”协同效应开始显现。独立上市进程推进,可能于2026年底或2027年完成IPO。
2027年:真武V900(216GB显存,1200GB/s带宽)发布,若性能兑现“3倍于M890”的承诺,有望在单卡性能上接近或达到NVIDIA B200水平 [18783]。关键挑战:台积电断供后能否找到稳定的先进制程替代方案。
2028年:真武J900“架构跨越式革新”发布,可能涉及Chiplet、新器件或新计算范式 [18782]。若供应链问题解决,平头哥有望成为全球AI芯片第二梯队(仅次于NVIDIA和Google TPU)的核心玩家。
关键风险:美国出口管制持续升级,先进制程和HBM供应被彻底切断。若此情况发生,平头哥的增长曲线将面临严峻挑战——“一年一代”的路线图将沦为纸上谈兵。
核心判断:平头哥真武是中国国产AI芯片中最具“Google TPU式”潜力的玩家——不是因为它技术最强,而是因为它拥有“模型+云+芯片”的完整闭环。这个闭环一旦形成正向飞轮(更多客户→更多业务数据→更优芯片设计→更强性能→更多客户),将产生强大的自我强化效应。但这一切的前提是 供应链安全——如果台积电彻底断供且国产替代无法及时跟上,平头哥的增长曲线将面临严峻挑战。
同上
寒武纪(中科寒武纪科技股份有限公司,688256.SH)是中国大陆最早一批AI芯片创业公司,也是科创板“AI芯片第一股”。公司成立于2016年3月,总部位于北京,2020年7月在科创板上市。公司名称取自“寒武纪生命大爆发”,寓意智能时代的爆发式增长。
寒武纪是中国极少数拥有 全栈自研AI芯片能力(指令集→架构→芯片→软件栈)的公司,且是唯一一家 云‑边‑端全场景覆盖 的国产AI芯片公司。其MLU(Machine Learning Unit)架构从设计之初就属于 AI领域专用架构(DSA),与通用GPU路线存在本质差异——这带来了能效优势,但同时也意味着通用性受限[18854]。
| 公司名称 | 中科寒武纪科技股份有限公司 |
|---|---|
| 英文名 | Cambricon Technologies Corporation Limited |
| 成立时间 | 2016年3月 |
| 总部 | 北京 |
| 上市 | 2020年7月(科创板,688256.SH) |
| 员工 | 约1,107人(2025年末),其中研发887人,占比80.13% [19004] |
| 2025年营收 | 64.97亿元 [18870] |
| 2025年净利润 | 20.59亿元(首次全年盈利)[18871] |
| 市值 | 一度突破6,000亿元(2025年8月),后回落但仍在高位 [19015] |
数据来源:[18870]
寒武纪的创始团队在中国AI芯片领域堪称“顶配”。
陈天石(创始人、董事长兼CEO):1985年出生,江西南昌人。16岁考入中国科学技术大学少年班(数学与应用数学专业),25岁获中科大计算机学院博士学位。2010年博士毕业后进入中科院计算技术研究所,历任助理研究员、副研究员、研究员(正教授)、博士生导师。2016年创办寒武纪,担任董事长兼总经理[18898]。
陈云霁(联合创始人、首席科学家):1983年出生,陈天石的亲哥哥。14岁考入中科大少年班,19岁进入中科院计算所硕博连读,成为国产“龙芯”研发团队中最年轻的成员。24岁获博士学位,25岁成为8核龙芯3号的主任架构师,29岁晋升研究员。2015年入围《麻省理工技术评论》全球35位35岁以下杰出青年创新者。现为中科院计算所副所长、处理器芯片全国重点实验室主任[18896]。
兄弟二人的“双核”分工模式:哥哥陈云霁留在中科院计算所继续从事基础研究并担任寒武纪首席科学家,弟弟陈天石全职担任CEO。这种“研究所+公司”的双轨模式在中国AI芯片公司中独一无二,让寒武纪在基础研究层面保持了极高的起点[18893]。
团队背景:核心成员主要来自中科院计算所智能处理器课题组。2015年,该团队(仅约20人)在中科院一间30平方米的实验室完成了世界首款深度学习专用处理器原型芯片的流片[18899]。团队副总裁曾参与龙芯CPU和寒武纪NPU项目研发[18901]。
架构师评注:寒武纪的创始团队配置在国产AI芯片圈中可以说“出道即巅峰”。陈云霁的龙芯CPU架构师背景让寒武纪在指令集设计和处理器微架构层面拥有极深的积累——这恰恰是很多国产GPU公司最薄弱的环节。但一个值得注意的事实是:陈云霁并未全职加入寒武纪,而是“半学术界半产业”的角色。这种模式在早期能够提供学术背书,但在公司进入大规模商业化和工程化阶段后,学术研究和工程落地的张力可能成为隐忧。
寒武纪的发展史,可以用“高开→低走→逆袭”来概括:
| 时间 | 事件 |
|---|---|
| 2015年 | 中科院计算所团队完成世界首款深度学习专用处理器原型芯片流片 [18899] |
| 2016年3月 | 寒武纪公司正式成立 [18894] |
| 2017年 | 寒武纪1A处理器搭载于华为Mate 10,成为全球首款手机AI芯片(IP授权模式) [18889] |
| 2018年 | 推出云端AI芯片思元100(MLU100),进军云端;推出第二代终端IP 1H/1M [18817] |
| 2019年 | 发布第二代云端芯片思元270(MLU270),边缘芯片思元220 [18819] |
| 2020年7月 | 科创板上市,募资约25亿元,成为“科创板AI芯片第一股” [19137] |
| 2021年 | 发布首颗训练芯片思元290 + 训推一体芯片思元370(chiplet设计);成立行歌科技(自动驾驶) [19137] |
| 2022年12月 | 被美国商务部列入实体清单,台积电7nm代工中断 [19064] |
| 2023年 | 思元590芯片研发推进;营收大幅下滑,全年亏损8.48亿元;行歌团队裁撤 [19109] |
| 2024年 | 思元590量产,Q4首次单季盈利;全年营收11.74亿元,+65.56% [18873] |
| 2025年H1 | 营收28.81亿元,暴增4,348%;净利润10.38亿元,首次半年度盈利 [18827] |
| 2025年全年 | 营收64.97亿元,+453%;净利润20.59亿元,首次全年盈利;取消“U”标识 [18870] |
| 2026年Q1 | TTM营收约$1.16B(约84亿元),持续高速增长 [18846] |
数据来源:综合整理
关键转折点:2022年12月被列入实体清单是整个寒武纪发展史上最重要的分水岭。在此之前,寒武纪依赖台积电7nm工艺,产品性能有保障,但2023年被迫转向中芯国际后,经历了痛苦的工艺适配过程,甚至一度传出性能损失30%[18931]。然而,2024‑2025年的AI大模型爆发+美国进一步收紧对华芯片出口管制,反而让寒武纪成为国内互联网大厂“唯一可规模化采购的国产高性能AI算力供应商”之一,迎来了爆发式增长[18962]。
寒武纪的产品线覆盖 云‑边‑端‑车 四个场景,是目前国产AI芯片公司中布局最完整的。但需注意,部分产品(如思元590、690)尚未在官网正式发布,参数主要来自财报、券商报告及公开演讲[18855]。
| 产品 | 发布/量产时间 | 制程 | 架构 | 关键参数 | 定位 |
|---|---|---|---|---|---|
| 思元100 | 2018年 | 16nm | MLUarch01 | INT8 128 TOPS | 云端推理 |
| 思元270 | 2019年 | 16nm | MLUarch02 | INT8 128 TOPS | 云端推理 |
| 思元290 | 2021年 | 台积电7nm | MLUarch02扩展 | FP16 256 TFLOPS,1.23TB/s带宽,MLU-Link 600GB/s [19094] | 云端训练 |
| 思元370 | 2021年 | 台积电7nm | MLUarch03 | 390亿晶体管,chiplet,INT8 256 TOPS,LPDDR5,MLU-Link [18804] | 训推一体 |
| 思元590 | 2024年量产 | 7nm(SMIC) | MLUarch05 | INT8 512 TOPS,FP16 256 TFLOPS,HBM2e 96GB,MLU-Link(约372GB/s?),功耗250‑350W [18994] | 云端训练主力 |
| 思元690 | 预计2026年 | 5nm(SMIC)等效 | 新一代架构 | 性能逼近H100的80%(送测数据),Chiplet(12nm+7nm混合封装),算力密度提升400% [18848] | 下一代训练芯片 |
数据来源:[18804]
思元590详细参数(基于公开信息综合,部分数据存在出入):
| 参数 | 数值 | 对比A100 |
|---|---|---|
| 制程 | 7nm(SMIC) | A100: 台积电7nm |
| INT8 算力 | 512 TOPS | A100: 1,248 TOPS(约41%)[18859] |
| FP16 算力 | 256 TFLOPS | A100: 312 TFLOPS(约82%)[18859] |
| BF16 算力 | 未公开 [18859] | A100: 312 TFLOPS |
| 显存 | 96GB HBM2e [18852] | A100: 80GB HBM2e |
| 内存带宽 | ~2.7 TB/s [18852] | A100: 1.6‑2.0 TB/s |
| 功耗 | 250‑350W [19086] | A100: 400W |
| 互联 | MLU-Link(带宽约372GB/s?)[18995] | NVLink 600 GB/s |
| 能效比 | 2.8 TFLOPS/W(FP16)[18856] | A100: 约2.0 TFLOPS/W |
数据来源:[18852]
架构师评注:思元590的FP16算力约为A100的82%,但INT8算力仅为41%,说明其低精度推理方面可能尚未完全爆发。更大的亮点是HBM2e带宽高达2.7 TB/s,是A100的1.5倍,这在大模型推理(尤其是decode阶段)中可能带来显著优势。然而,思元590的BF16算力未公开,且MLU‑Link带宽似乎低于预期(有说372GB/s),这会限制多卡训练扩展效率。此外,思元590的功耗数据混乱,有说250W,也有说350W~550W,这可能与不同工作负载或不同批次有关,增加了评估难度。
| 产品 | 关键参数 | 定位 |
|---|---|---|
| 思元220 | 32 TOPS (INT8),10W功耗,4核ARM Cortex‑A55 [18807] | 边缘推理 |
| MLU220 M.2 | M.2加速卡 | 边缘低功耗场景 |
| 产品 | 参数 | 状态 |
|---|---|---|
| SD5223 | 16 TOPS,L2+行泊一体 [19105] | 2023年发布,进展缓慢,有传闻已流片并与一汽合作 [19118] |
| SD5226 | 400+ TOPS,7nm,L4车端训练 [19111] | 研发不及预期,团队大面积裁撤,量产前景堪忧 [19109] |
重要说明:行歌科技(寒武纪自动驾驶子公司)的发展不达预期。2023年经历团队大裁撤,SD5226研发进度严重滞后。2022年末被列入实体清单进一步打击了其7nm工艺供应。目前行歌业务已大幅收缩,公开资料有限,需进一步核验[19109]。
寒武纪的核心技术壁垒是 自研MLU指令集(Machine Learning Unit ISA),已迭代至第五代(MLUarch05)。截至2025年末,寒武纪已形成“体系完整、功能完备、高度灵活的智能芯片指令集专利群”[18811]。最新的MLUarch05针对语言大模型、图像视频大模型、推荐系统大模型等训练推理场景进行了重点优化[19101]。
架构师深层解读:MLU指令集本质上是一套 张量计算优先的领域专用指令集,而非像NVIDIA CUDA那样的通用并行计算指令集。这意味着MLU在处理矩阵乘法、卷积等AI核心算子时效率极高,但一旦遇到分支密集、控制流复杂的通用计算任务,其效率可能大幅下降。这也是为什么寒武纪芯片在某些特定场景下(如推荐系统推理)能效比可达H100的1.8倍[18978],但在通用大模型训练中综合性能“仅”A100的80%[18863]。百度测试也指出,思元590指令兼容性相对较差,可能影响部署[19055]。
思元370是寒武纪首款采用chiplet技术的AI芯片,集成了390亿个晶体管[18804]。思元690预计将采用更激进的chiplet方案——公开报道称可能通过“12nm+7nm混合封装”突破制程限制,单卡算力密度较现行产品提升400%[18996]。
寒武纪自研的MLU-Link互联技术,思元290的MLU-Link带宽达600 GB/s[19094],但思元590的MLU-Link带宽有报道称仅372GB/s[18995],这远低于A100的NVLink 600GB/s,可能成为多卡扩展的瓶颈。思元690是否会升级互联带宽,尚未有明确信息。
从思元370开始,寒武纪强调“训推一体”设计,同一芯片既能做训练也能做推理,降低了开发和部署的复杂度。思元590在此基础上进一步强化训练能力,但推理侧布局相对滞后,2025年Q3市场转向推理时,寒武纪营收增速已出现放缓[18944]。
思元590及最新思元690系列芯片均支持FP8计算,在低精度计算优化上处于国内领先水平[18971]。2025年DeepSeek V3.1发布时采用的UE8M0 FP8格式,寒武纪芯片是首批支持该格式的国产芯片之一[18969]。
寒武纪构建了一套完整的软件栈对标NVIDIA CUDA生态:
| 寒武纪组件 | 对标NVIDIA | 功能 |
|---|---|---|
| BANG C | CUDA C/C++ | 异构并行编程语言 [18904] |
| BANG Py | cuPy/Numba | Python编程接口 [18915] |
| CNNL | cuDNN/cuBLAS | 深度学习算子库 [18915] |
| CNCL | NCCL | 多卡通信库 [18915] |
| MagicMind | TensorRT | 推理加速引擎 [18918] |
| CNToolkit | CUDA Toolkit | 编译/调试/分析工具集 [18911] |
| CNPerf | Nsight | 性能分析工具 [18908] |
| CNSantizer | Compute Sanitizer | 程序正确性分析 [18908] |
数据来源:[18904]
NeuWare已适配PyTorch、TensorFlow等主流框架,并支持DDP、FSDP、Tensor Parallelism、Pipeline Parallelism等多种分布式训练策略。寒武纪建立了“快速跟进社区版本”的长效机制,可在PyTorch社区版本发布后2周内实现MLU适配版本发布[18914]。
架构师判断:寒武纪的软件栈是国内AI芯片公司中 最完整、最成体系的。寒武纪没有选择“兼容CUDA”的捷径(如摩尔线程的MUSA),而是坚持走自研生态路线。这条路“慢但正确”——长期来看,只有自研生态才能做到深度优化和差异化,但短期必然面临开发者获取成本高、生态冷启动难的问题。目前,软件生态仍是寒武纪最大短板,开发者不足10万,而CUDA生态已垄断全球近90%的AI软件开发[18978]。
寒武纪的客户集中度是 所有国产AI芯片公司中最高的,也是最大的风险点:
| 年份 | 前五大客户营收占比 | 第一大客户占比 |
|---|---|---|
| 2023年 | 92.36% | 未披露 [18936] |
| 2024年 | 94.63% | 79.15% [19026] |
| 2025年 | 88.66% | 未披露 [18876] |
数据来源:[18936]
⚠️ 关键不确定性:寒武纪从未在2023‑2025年年报中披露具体客户名称。2021年和2022年披露的第一大客户分别为江苏昆山和南京的国资背景智算中心项目公司[19029]。市场对字节跳动是否为第一大客户存在广泛猜测,但寒武纪管理层在业绩会上对此“未予回应”[19029]。客户结构是寒武纪最大的信息不对称,也是最大的投资风险。
直销为主,占比99.13%。通过自有销售团队直接对接客户,参与公开招标或商务谈判,提供定制化解决方案[18876]。
| 年份 | 营收(亿元) | 同比增长 | 归母净利润(亿元) | 毛利率 |
|---|---|---|---|---|
| 2020年 | 4.59 | +3.4% | -4.35 | 65.4% |
| 2021年 | 7.21 | +57.1% | -8.25 | 62.4% |
| 2022年 | 7.29 | +1.1% | -12.56 | 65.8% |
| 2023年 | 7.09 | -2.7% | -8.48 [18883] | 64.1% |
| 2024年 | 11.74 | +65.6% | -4.52 [18873] | 56.71% [18872] |
| 2025年 | 64.97 | +453.2% | +20.59 [18870] | 55.15% [18872] |
数据来源:[18870]
数据来源:[18867]
2025年报披露,拟每10股派发现金红利15元(含税),合计派现6.32亿元,同时每10股转增4.9股。2026年3月16日取消特别标识“U”(意味着不再亏损),简称变更为“寒武纪”[18867]。
寒武纪的供应链风险是所有国产AI芯片公司中 最严峻的之一:
| 风险维度 | 具体状况 |
|---|---|
| 实体清单 | 2022年12月被列入,台积电全面断供 [19064] |
| 先进制程来源 | 仅剩中芯国际(SMIC),7nm良率低、产能有限 |
| 产能优先级 | 华为昇腾在SMIC享有绝对优先保障,寒武纪处于“第二梯队” [18936] |
| HBM供应 | 思元590使用SK海力士HBM2e,受美国出口管制影响,未来供应不确定性大 [18852] |
| EDA工具 | 依赖Synopsys/Cadence,虽已获部分许可,但先进节点工具受限 [18948] |
| IP授权 | 关键IP(如PCIe、DDR PHY等)需自研或国产替代 |
数据来源:[19064]
架构师评注:寒武纪的供应链困境本质上是“SMIC 7nm产能漏斗”问题。SMIC的7nm产能首先满足华为,寒武纪、地平线等独立芯片设计公司只能分到剩余的部分。2025年寒武纪的存货激增178.67%,可能反映的是“有订单但产能不足所以提前备货”的焦虑,也可能是“产能已获取但客户交付节奏不确定”的库存积压风险。这两种解读截然相反,需要后续季度数据验证[18944]。
| 维度 | 寒武纪 | NVIDIA | 对应关系 |
|---|---|---|---|
| 架构类型 | AI专用DSA(MLU) | 通用GPU(CUDA Core + Tensor Core) | 不对等——寒武纪更接近Google TPU路线 |
| 训练芯片 | 思元590 | A100(性能约80%)[18863] | 落后一代,但可部分替代 |
| 推理芯片 | 思元590/370 | L40S / A10 | 特定场景有优势 [18978] |
| 软件栈 | NeuWare | CUDA | 对标但规模差一个数量级 [18978] |
| 图形能力 | 无 | 完整 | 完全无法对标 |
| HPC | 有限 | 完整 | 差距大 |
| 生态 | 10万开发者 | 300万+开发者 | 差距一个数量级 |
更准确的类比:寒武纪的路线更接近Google TPU——面向AI工作负载的领域专用架构,而非通用GPU。但TPU是Google自用不外售,而寒武纪是面向第三方客户销售的商业化产品。这一点与NVIDIA的商业模式更接近,但在技术路线上差异显著。
核心判断:寒武纪是“高赔率+高不确定性”的标的。它的技术实力毋庸置疑,但客户集中度、供应链依赖和华为昇腾的竞争是三个最核心的风险。未来3年,寒武纪最关键的里程碑是 思元690能否成功量产并大规模部署,以及 能否将客户结构从“一家独大”变为“多点开花”。2025年8月CTO的离职事件也提醒我们,管理层在技术路线上的分歧可能成为未来发展的隐忧[18843]。
同上
基于已有知识整合最新公开信息,以下是《逐家公司深度分析》中“摩尔线程”子章节的完整内容,保持资深架构师视角,所有数据均标注来源,不确定信息已明确提示。
定位:中国唯一走“全功能 GPU”路线的国产厂商——从桌面游戏显卡到万卡智算集群,从 AI 训推到图形渲染,从消费级到数据中心,路线图直接对标 NVIDIA。
核心判断:摩尔线程是国产 GPU 厂商中“野心最大”的一家,也是与 NVIDIA 路线最接近的一家。但“全都要”意味着“全都不深”——图形和 AI 两边作战,在资源有限的前提下,软件生态和单点性能都可能被专业化对手超越。其策略本质是“时间换空间”:用最快的产品迭代节奏(一年一代架构)和极短的 IPO 路径(88 天过会),在产业窗口期关闭前建立起规模和品牌壁垒。
摩尔线程智能科技(北京)股份有限公司(Moore Threads Technology Co., Ltd.)成立于 2020 年 6 月,总部位于北京,是一家典型的 Fabless 芯片设计公司,专注于全功能 GPU 的研发设计 [19191]。公司于 2025 年 12 月 5 日在上海证券交易所科创板上市,股票代码 688795,被誉为“国产 GPU 第一股” [19187]。IPO 募资约 80 亿元,发行价 114.28 元/股,上市首日暴涨 425.46%,市值一度突破 3000 亿元 [19159]。
摩尔线程自称“中国版英伟达”并非营销噱头——它是国产厂商中唯一一家同时覆盖 AI 计算加速卡、消费级游戏显卡、专业视觉加速卡、智算集群、智能 SoC 五大产品线的公司,产品矩阵从云到端、从训练到推理、从图形到 AI 全面铺开 [19185]。公司仅用 5 年即完成从创立到上市,88 天刷新科创板审核速度纪录 [19160]。
核心团队带有浓厚的 NVIDIA 基因。创始人张建中(James Zhang)在 NVIDIA 工作 14 年,从普通销售做到全球副总裁兼中国区总经理,亲手将 NVIDIA 中国市场份额从不足 50% 推至 80% [19165]。他不是芯片架构师出身,而是销售和市场出身,这决定了摩尔线程极度重视产品节奏、客户关系和资本市场叙事 [19179]。
| 角色 | 姓名 | 背景 |
|---|---|---|
| 创始人/董事长/总经理 | 张建中 | 1966 年生,南京理工大学计算机系本科,冶金自动化研究院硕士。1990–1992 年冶金自动化研究院高级研究员;1992–2001 年惠普中国产品总经理;2001–2006 年戴尔中国全球客户部总经理;2006–2020 年 NVIDIA 全球副总裁兼中国区总经理。2020 年 6 月创办摩尔线程,直接+间接控制公司约 36.36% 股份,上市后持股约 10.83%,持股市值约 305 亿元 [19165] |
| 核心团队来源 | — | 大量来自 NVIDIA、AMD、Intel,包括前 NVIDIA 高级生态总监周元、前 GPU 架构师张玉博等 [19540]。张建中自称“拉着老部下挤在中关村软件园创业” [19179] |
摩尔线程的发展速度极快,5 年内完成从零到上市,芯片架构更迭 5 代:
| 时间 | 里程碑 |
|---|---|
| 2020 年 6 月 | 公司成立,张建中离开 NVIDIA 创业 [19191] |
| 2021 年 2 月 | 完成 Pre-A 轮数十亿元融资,深创投、红杉、GGV 联合领投,字节跳动、小马智行等参投 [19397] |
| 2021 年 11 月 | 完成 A 轮 20 亿元融资,投前估值 119 亿元 [19410] |
| 2022 年 3 月 | 发布首款全功能 GPU 芯片“苏堤”及 MTT S60、MTT S2000 [19194] |
| 2022 年 11 月 | 发布第二代“春晓”架构,推出国内首款消费级游戏显卡 MTT S80 [19194] |
| 2022 年 12 月 | 完成 B 轮 15 亿元融资,中移数字新经济产业基金领投 [19410] |
| 2023 年 10 月 | 被美国商务部列入实体清单,台积电断供,转向中芯国际代工 [19337] |
| 2023 年 12 月 | 发布第三代“曲院”架构,MTT S4000 智算加速卡,支持千卡集群 [19423] |
| 2024 年 7 月 | 夸娥(KUAE)智算集群升级至万卡规模 [19225] |
| 2024 年 | 推出第四代“平湖”架构,MTT S5000 训推一体智算卡 [19429] |
| 2025 年 6 月 30 日 | 科创板 IPO 获受理,拟募资 80 亿元 [19201] |
| 2025 年 9 月 26 日 | 88 天过会,刷新科创板审核速度纪录 [19199] |
| 2025 年 12 月 5 日 | 正式登陆科创板,首日大涨 425.46%,市值峰值约 3000 亿元 [19170] |
| 2025 年 12 月 20 日 | 首届 MUSA 开发者大会(MDC 2025),发布第五代“花港”架构、华山/庐山芯片路线图、AI 算力本 [19202] |
| 2026 年 Q1 | 首次实现单季度净利润扭亏为盈(归母净利润 2936 万元)[19509] |
摩尔线程保持“一年一代架构”的迭代速度,架构代号均取自“西湖十景”:
| 架构代 | 代号 | 时间 | 代表产品 | 主要定位 |
|---|---|---|---|---|
| 第一代 | 苏堤 | 2022 | MTT S10/S60/S2000 | 信创 PC GPU 国产化,首款全功能 GPU [19444] |
| 第二代 | 春晓 | 2023 | MTT S80/S70/S3000 | 国内首款消费级游戏显卡,220 亿晶体管 [19220] |
| 第三代 | 曲院 | 2024 | MTT S4000 | AI 训推一体,千卡集群 [19429] |
| 第四代 | 平湖 | 2025 | MTT S5000 | 万卡集群,FP8 原生支持,对标 H100 [19429] |
| 第五代 | 花港 | 2025.12 发布 | 华山/庐山(2026 量产) | 全新指令集,算力密度 +50%,能效 ×10 [19202] |
| 参数 | 规格 |
|---|---|
| 架构 | 第四代 MUSA “平湖”,专为大规模 AI 训练优化 [19417] |
| FP8 算力 | 最高 1 PFLOPS(1000 TFLOPS)[19505] |
| FP16/BF16 算力 | ~512 TFLOPS [19502] |
| FP32 算力 | ~32 TFLOPS [19258] |
| 显存 | 80 GB HBM2e [19505] |
| 显存带宽 | 1.6 TB/s [19505] |
| 卡间互联 | MTLink 2.0,~784–800 GB/s [19498] |
| 精度支持 | FP8/FP16/BF16/TF32/FP32/FP64 全精度 [19503] |
| 性能对标 | 宣称对标 NVIDIA H100,FP32 约为 H20 的 70%,B200 的约 40% [19500] |
| 推理实测 | 单卡 Prefill 吞吐 >4000 tokens/s,Decode >1000 tokens/s(DeepSeek 等模型)[19419] |
| 参数 | 规格 |
|---|---|
| INT8 算力 | 256 TOPS [19430] |
| BF16 算力 | 128 TFLOPS [19430] |
| FP32/FP64 | 32/64 TFLOPS [19430] |
| 显存 | 48 GB [19554] |
| 显存带宽 | 768 GB/s [19553] |
| 互联 | MTLink 1.0,支持千卡集群 [19554] |
| 参数 | 规格 |
|---|---|
| MUSA 核心 | 4096 个 [19250] |
| FP32 算力 | 14.7 TFLOPS [19250] |
| 显存 | 16 GB GDDR6 [19250] |
| 接口 | PCIe Gen5 x16 [19250] |
| 性能对标 | NVIDIA RTX 3060 水平 [19253] |
| 图形 API | DirectX 12、OpenGL 4.6、Vulkan 1.3 [19186] |
| 产品 | 定位 | 预期时间 |
|---|---|---|
| 华山 GPU | 花港架构首款 AI 训推一体芯片,超智融合,支持 1024 卡超节点 Scale-up [19320] | 2026 年量产 [19328] |
| 庐山 GPU | 花港架构高性能图形渲染,游戏性能比 S80 提升 15 倍,AI 算力提升 64 倍,光追性能提升 50 倍 [19318] | 2026 年量产 [19328] |
| 长江 SoC | 智能 SoC 芯片,集成 CPU+GPU+NPU+VPU,50 TOPS 端侧 AI 算力,对标高通骁龙 8295 [19336] | 2026 年导入量产 [19333] |
| MTT AIBOOK | 搭载“长江”的 AI 算力笔记本,32GB+1TB,预售价 9999 元 [19187] | 2026 年 1 月上市 |
| MTT C256 | 下一代超大规模智算中心超节点架构 [19187] | 规划中 |
全功能 GPU 路线:摩尔线程是国产厂商中唯一坚持“全功能 GPU”路线的公司,一颗芯片同时具备 AI 计算加速、图形渲染、视频编解码、物理仿真四大引擎 [19217]。这与 NVIDIA 的 GPU 路线一致,工程难度极高,需要在 AI 计算、图形 API 兼容性、视频编解码硬件单元之间做深度的系统级协同。
MUSA 统一架构与 Imagination IP 依赖:MUSA 是摩尔线程自研的“元计算”统一架构,覆盖芯片架构、指令集、编程模型、驱动等全栈 [19204]。但第一代“苏堤”架构大量使用了 Imagination Technologies 的 BXT GPU IP 授权 [19432]。BXT 是基于移动端 Tile-Based Rendering 的架构,与 NVIDIA 的 Immediate Rendering 有本质区别,导致早期图形 API(如 DX11)只能通过驱动转译实现,性能和兼容性打折扣 [19434]。后续架构虽逐步自研化,但“花港”之前的自主架构占比仍存疑,有分析指出其“智多型 AI 平台”仍依赖 IMG 授权 IP 进行二次开发 [19442]。“花港”架构宣称采用全新指令集,算力密度提升 50%,能效提升 10 倍 [19202],但其是否完全摆脱 IMG IP 依赖,公开资料有限,需进一步核验。
硬件级 FP8 原生支持:MTT S5000 是国内最早原生支持 FP8 精度的训练 GPU 之一,配置硬件级 FP8 Tensor Core 加速单元 [19493]。相比 BF16/FP16,数据位宽减半,显存带宽压力降低 50%,理论吞吐量翻倍,在 DeepSeek、Qwen 等模型上可提升 30% 以上训练性能 [19493]。
花港架构的图形革新:花港集成全新第一代 AI 生成式渲染架构(AGR)和第二代光线追踪硬件加速引擎,支持 FP4 到 FP64 全精度端到端加速 [19328]。庐山芯片将游戏性能较 S80 提升 15 倍,AI 算力提升 64 倍,光线追踪性能提升 50 倍 [19318],但仍需样片实测验证。
摩尔线程的软件生态是其追赶 NVIDIA CUDA 的核心武器,核心策略是 兼容迁移 而非另起炉灶。
| 组件 | 功能 | 对标 CUDA 组件 |
|---|---|---|
| MUSA Toolkits | 底层编译器(mcc)、MUSA 运行时库、CUDA 兼容转换工具 | NVCC + CUDA Toolkit |
| muDNN | 深度学习加速库 | cuDNN |
| muBLAS | 线性代数加速库 | cuBLAS |
| MCCL | 集合通信库 | NCCL |
| MUSIFY | CUDA 代码自动转换工具,可解决 90% 以上语法兼容性问题 [19278] | —(CUDA 无对应物) |
MUSIFY 是杀手锏工具,可将 CUDA 代码自动转换为 MUSA 兼容版本,大幅降低迁移成本 [19278]。PyTorch 用户只需将 torch.cuda 替换为 torch.musa 即可完成迁移 [19281]。摩尔线程已声明 MUSA/MUSIFY 不涉及 NVIDIA CUDA 逆向工程,是独立实现 [19288]。
开源生态:开源了 vLLM-MUSA(大模型推理框架)、OpenCV-MUSA(计算机视觉加速库)、SGLang-MUSA(支持 DeepSeek、Qwen 等主流模型“开箱即用”)[19283]。截至 2025 年底,开发者社区超 10 万开发者,适配软件超 150 款 [19257]。
图形 API 兼容性:已完整支持 DirectX 12、OpenGL 4.6、Vulkan 1.3,并即将完整支持 DirectX 12 Ultimate [19186]。MTT S80 的 Windows 驱动迭代 24 个版本,国内 TOP 50 热门游戏 100% 兼容,累计适配优化游戏 192 款 [19465]。但光追硬件加速需等“庐山”芯片,当下仅规划支持 Vulkan 光追 [19197]。
客户结构高度集中:2025 年上半年前五大客户营收占比高达 98.29% [19366]。核心客户是中国移动(既是股东也是最大客户),双方合作覆盖云电脑、智算集群、AI 大模型适配(九天 35B 大模型)[19198]。其他客户包括电信、联通部分项目及科研院所 [19358]。
订单情况:截至 2025 年 9 月,预计订单金额约 20 亿元 [19358]。2026 年 3 月,签订单笔 6.6 亿元夸娥智算集群合同,占 2025 年全年营收超四成 [19485]。智算集群累计订单达 14.88 亿元 [19372]。收入波动极大,如 2025 年 Q3 仅 8283 万元,依赖大项目交付节奏 [19511]。
商业化阶段:仍处于“以投入换未来”的早期阶段,大客户依赖度高,但云端产品毛利率达 70.32%,整体毛利率 65.57%,显示产品具有一定溢价能力 [19476]。
| 年份 | 营收(亿元) | 同比增长 | 归母净利润(亿元) | 研发投入(亿元) |
|---|---|---|---|---|
| 2022 | 0.46 | — | -18.94 | 11.16 |
| 2023 | 1.24 | +169% | -17.03 | 13.34 |
| 2024 | 4.38 | +254% | -16.18 | 13.59 |
| 2025 | 15.06 | +243% | -10.24 | 13.05 |
| 2026 Q1 | 7.38 | +155% | +0.29(首次单季盈利) | 3.69 |
数据来源:[19276]
⚠ 关键细节:2026 年 Q1 扭亏为盈主要依赖 7006 万元政府补助,扣非净利润仍为亏损 5428 万元 [19508]。公司预计最早 2027 年实现合并报表盈利 [19333]。
| 轮次 | 时间 | 金额 | 投前估值 | 主要投资方 |
|---|---|---|---|---|
| 天使轮 | 2020 年 | ~0.82 亿元 | 1000 万元 | 沛县乾曜、深圳明皓 [19409] |
| Pre-A 轮 | 2021 年 2 月 | 数十亿元 | — | 深创投、红杉、GGV、字节跳动、小马智行等 [19397] |
| A 轮 | 2021 年 11 月 | 20 亿元 | 119 亿元 | 国盛资本、五源资本、中银国际等 [19410] |
| B 轮 | 2022 年 12 月 | 15 亿元 | — | 中移数字新经济产业基金、和谐健康保险 [19410] |
| Pre-IPO 轮 | 2024 年 12 月 | 52.25 亿元 | 246.2 亿元 | 38 家机构 [19398] |
| IPO | 2025 年 12 月 | ~80 亿元 | 537 亿元(发行市值) | 公开发行 [19199] |
累计融资超 100 亿元 [19158]。上市前估值在《2025 全球独角兽榜》中为 310 亿元 [19395]。
| 股东 | 持股比例 |
|---|---|
| 张建中(直接+间接) | ~10.83% |
| 南京神傲(员工持股平台) | 14.55% |
| 杭州华傲 | 6.73% |
| 红杉资本 | ~4.79% |
| 国盛资本 | ~4.9% |
| 中移基金 | 2.12% |
数据来源:[19401]
综合判断:供应链风险在国产 GPU 中属于中等偏高,虽然已转向中芯国际,但 7nm 以下产能极为稀缺,且面临华为昇腾、寒武纪等厂商的竞争。
| 维度 | 摩尔线程 | NVIDIA | 对应关系 |
|---|---|---|---|
| 路线 | 全功能 GPU | 全功能 GPU | 最直接对标 |
| AI 训练卡 | S5000(平湖) | H100/H200/B200 | 约 H100 的 60–80%(FP16),差距 1–2 代 |
| AI 推理卡 | S5000(FP8 推理) | L40S/H100 | 推理性能国产领先 |
| 游戏显卡 | S80(春晓) | RTX 3060 | 性能相当,生态差距大 |
| 软件栈 | MUSA | CUDA | 功能对标,体量差 100 倍 |
| 集群 | 夸娥 KUAE(万卡) | DGX SuperPOD | 规模相当,效率差距待验证 |
| 智能 SoC | 长江 | Tegra/Orin | 对标高通骁龙 8295 而非 NVIDIA |
摩尔线程与 NVIDIA 的关系可概括为:“像素级模仿 + 中国特色改造”。张建中在 NVIDIA 14 年,最清楚 CUDA 生态的构建逻辑,因此 MUSA 从第一天起就设计为“CUDA 兼容”路线,MUSIFY 在迁移便捷性上做得比 AMD ROCm 更好 [19179]。
2026–2027 年:关键验证期
2027–2028 年:淘汰赛决胜期
核心判断:摩尔线程最可能成为国产 GPU 中“活得最久”的公司之一,不是因为技术最强,而是因为路线最全、资本最多、迭代最快。但“全功能”在资源有限时可能成为“全面平庸”,2026–2027 年是验证其能否在 AI 和图形两个战场同时站住脚跟的关键窗口。如果华山芯片的 AI 性能达到 H100 的 80%+,且庐山芯片的图形体验达到 RTX 4060 水平,摩尔线程将真正成为“中国版英伟达”;如果两者均不及预期,则可能被专业化对手(昇腾在 AI、景嘉微在图形)从两个方向夹击。
📌 待核验信息:
- 花港架构是否完全摆脱了 Imagination Technologies IP 依赖?
- S5000 的实际制程节点(12nm 还是 7nm?不同来源矛盾 [19256])
- 华山/庐山芯片的具体制程和代工厂
- 万卡集群的实际有效算力效率(MFU)
- 2026 年 Q1 扣非亏损的详细构成
- 中国移动之外的其他大客户具体身份
同上
本节将基于已有知识框架,深度整合最新公开信息,对壁仞科技进行更聚焦技术本质和产业逻辑的剖析。
壁仞科技是国产GPU创业浪潮中最具戏剧性的样本。它的故事分为鲜明的上下半场:上半场是BR100的“高光时刻”,以极致性能参数对标甚至宣称超越NVIDIA旗舰,一度成为国产GPU的技术图腾;下半场则是被制裁后的“降规求生”,通过BR106/BR166系列务实量产,并用异构混训(HGCT)和光互连等系统级创新,重新定义自身在国产算力生态中的独特价值。
壁仞的产品演进,并非简单的迭代,而是两次战略跳跃的结果。
第一次跳跃:从BR100到BR106/BR166,从“秀肌肉”到“求生存”
BR100的发布(2022年8月)是一场技术宣言。它采用7nm制程,集成770亿晶体管,使用Chiplet技术将两个计算die封装在一起,其宣称的16位浮点算力(FP16)超过1000 TFLOPS,一度是“全球算力纪录” [19609]。CTO洪洲在Hot Chips上详细拆解了其原创的“壁立仞”架构,其中 近存储计算引擎(NME) 和 C-Warp协作开发模式 等技术,即使放在今天看,依然是极具前瞻性的架构创新,旨在解决“内存墙”和并行效率问题 [19868]。
然而,2022年10月的美国BIS出口管制,让台积电暂停了代工服务,BR100实质上“难产” [19626]。壁仞被迫转向,开发了不公开具体参数、但可量产的降规版BR106 [19917]。这并非简单的性能降级,而是一次 供应链导向的重新设计。在此基础上,壁仞做出了第二次关键跳跃:通过 Chiplet技术,将两颗BR106计算裸晶与四颗DRAM共封装,推出了性能翻倍的BR166芯片 [19717]。这本质上是一种“以封装换制程”的策略,在无法获取先进制程的情况下,通过2.5D封装和裸晶间互连技术,在封装层面实现性能跨越,为国产GPU在受限条件下的发展提供了关键思路。
第二次跳跃:从卖单卡到卖集群,定义“异构+光互连”新生态位
如果BR166是硬件层面的务实创新,那么HGCT和光跃LightSphere X则是系统层面的降维打击。2024年9月,壁仞发布HGCT异构GPU协同训练方案,业界首次支持3种及以上异构GPU(如壁仞+英伟达+其他国产芯片)混合训练同一个大模型,端到端训练效率达90-95% [19684]。这直接承认了一个现实:国产GPU短期内无法完全替代英伟达,混合部署是必经之路。HGCT通过“异构调度、异构通信、异构拆分”三层架构,解决了混合算力集群的“算力孤岛”问题,极大降低了客户的迁移门槛和风险 [19690]。
随后,在2025年7月的WAIC上,壁仞联合曦智科技、中兴通讯发布了国内首个光互连光交换GPU超节点——光跃LightSphere X [19822]。该方案通过光互连技术,将传输延迟降低90%以上,并在2026年3月于上海仪电智算中心完成了2048卡超节点部署,成功适配了包括DeepSeek V3在内的主流大模型 [19822]。这标志着壁仞已从单纯的芯片提供商,升级为具备 系统级集群方案能力 的算力基础设施玩家。
壁仞的商业化在2023年之后明显加速,但呈现出鲜明的“双面性”:
客户结构上,壁仞已从早期的少数客户,拓展至覆盖三大运营商、国家级算力平台(如呼和浩特智算中心)、政企及互联网公司(如中兴通讯、UCloud、无问芯穹)等 [19574]。截至招股书披露,其在手订单总价值已达 12.41亿元,为短期营收提供了明确的保障 [19575]。
创始人张文非技术出身的“资本狂人”背景,是壁仞独特基因的来源 [19667]。他通过顶级猎头式挖人,组建了堪称豪华的技术团队,包括CTO洪洲(英伟达/华为背景)、联席CEO李新荣(前AMD全球副总裁)等 [19672]。
然而,核心人才的流失也暴露了内部路线分歧。联合创始人焦国方(前高通GPU负责人)的离职,被普遍解读为其推动的 图形GPU路线与张文聚焦AI训练的战略方向发生冲突 [19759]。另一位联合创始人徐凌杰的离开,则称其仍将坚守算力赛道 [19938]。核心高管的接连出走,无疑对团队的稳定性和特定技术路线的延续性构成了挑战,但也使公司战略更加聚焦于AI算力。
壁仞的未来,高度系于其下一代旗舰芯片 BR20X。该芯片计划于2026年商业化上市,将采用第二代架构,全面升级计算、内存和互联能力,并原生支持FP8/FP4等低精度计算,目标直指NVIDIA H100级别的大模型训练能力 [19700]。在先进制程受限的当下,BR20X能否在性能上取得突破,并实现稳定量产,将是决定壁仞能否从“国产替代补充”角色,真正迈向“主流算力选择”的关键一跃。同时,其更远期的BR30X/BR31X也已在规划中,预计2028年上市,展现了持续迭代的长期决心 [19702]。
同上
海光信息(Hygon Information Technology Co., Ltd.,688041.SH)是中国大陆唯一同时具备 高端x86 CPU和GPGPU协处理器(DCU) 研发能力的上市公司,也是国产算力领域罕见的“双芯”平台型企业。公司成立于2014年,总部位于天津,2022年8月在科创板上市,当前市值约3,000-4,000亿元区间[20001]。
海光DCU(Deep Computing Unit,深度计算单元)是海光信息在“深算”系列品牌下推出的GPGPU架构AI加速器产品线。与华为昇腾(ASIC DSA路线)、寒武纪(MLU DSA路线)不同,海光DCU采用 通用GPGPU架构,硬件兼容AMD CDNA架构体系,软件栈基于ROCm生态构建,是国产AI芯片中 CUDA迁移成本最低 的路线之一[20016]。
| 公司名称 | 海光信息技术股份有限公司 |
|---|---|
| 英文名 | Hygon Information Technology Co., Ltd. |
| 成立时间 | 2014年 |
| 上市时间 | 2022年8月(科创板,688041.SH) |
| 总部 | 天津 |
| 第一大股东 | 中科曙光(持股27.96%)[20346] |
| 实际控制人 | 无实际控制人(中科院计算所通过中科曙光间接影响) |
| 2025年营收 | 143.77亿元,同比+56.92% [20001] |
| 2025年净利润 | 25.45亿元,同比+31.79% [20001] |
| 2026年Q1营收 | 40.34亿元,同比+68.06% [20057] |
| 研发投入 | 2025年全年45.69亿元,同比+32.58% [20051] |
| 员工 | 约1,100+人(研发占比约80%) |
数据来源:[20001]
架构师评注:海光DCU的本质是“站在AMD肩膀上的GPGPU”。与寒武纪从零自研指令集、华为昇腾自研达芬奇架构不同,海光选择了“引进-消化-吸收-再创新”的路径——DCU硬件源自AMD CDNA(MI100系列)架构的授权和吸收,软件栈则基于ROCm生态深度定制。这条路线的优势是软件兼容性极好(CUDA代码迁移成本极低),劣势是核心技术根基受制于AMD授权框架,且在2019年实体清单后已无法获得AMD新一代架构(CDNA2/CDNA3)的技术支持。
海光信息的核心团队具有鲜明的“中科院系”烙印,管理层主要来自中科曙光体系。
唐志敏(核心技术奠基人):中科院计算所研究员,曾担任龙芯CPU(龙芯一号、二号)首席科学家,是国产CPU领域最具传奇色彩的技术人物之一。2014年中科院参与设立海光信息后,唐志敏于2015年出任海光信息负责人,主导了海光一号CPU和海光一号DCU的技术路线设计与研发[20172]。唐志敏现已逐步退出海光日常管理,但其技术框架奠定了海光DCU的底层架构走向。
沙超群(现任董事、总经理):1977年生,北京理工大学工学硕士,教授级高级工程师。2011-2020年历任中科曙光技术副总裁、高级副总裁,2019年12月起任海光信息总经理。沙超群是海光从“技术引进”到“自主迭代”阶段的核心操盘手[20179]。
孟宪棠(董事长):香港科技大学工商管理硕士,曾任国家发改委处长、副巡视员、国科控股副总经理、中科可控董事。其政企资源背景为海光在信创市场的开拓提供了战略支撑[20177]。
核心团队特点:海光高管多具有中科院任职经历,核心技术团队中不乏曾任职于Intel、AMD等海外龙头公司的工程师[20182]。公司整体呈现“中科院系+政企资源+产业经验”的复合型团队特征。
架构师评注:海光团队的独特之处在于“双轨制”——唐志敏(龙芯之父)提供CPU/DCU底层架构基因,沙超群(曙光系)负责商业化和工程落地。这种配置让海光在CPU和DCU两个领域都能保持迭代节奏。但需要指出的是,唐志敏退出后,海光在 前沿架构创新 方面的内生动力可能有所减弱——深算系列至今仍延续CDNA1架构框架,未见颠覆性架构创新。
海光DCU的发展历程与海光CPU同步推进,但技术来源和演进路径有所不同:
| 时间 | 关键事件 |
|---|---|
| 2014年 | 海光信息成立,由中科曙光联合天津海泰科技投资、中科院计算所等共同设立[20349] |
| 2016年 | 与AMD成立合资公司,获x86和Zen架构授权(2.93亿美元),同时启动海光一号CPU设计[20133] |
| 2018年 | 海光一号CPU量产;同年启动深算一号DCU产品设计[20081] |
| 2019年6月 | 被美国列入实体清单,AMD停止所有技术交流和新IP授权[20267] |
| 2021年 | 深算一号DCU实现商业化应用,成为国内首款量产GPGPU[20090] |
| 2022年8月 | 科创板上市,募资约91.5亿元[20201] |
| 2023年Q3 | 深算二号DCU发布并商用,性能较深算一号提升100%以上[20031] |
| 2024年 | 深算二号规模化出货,DCU营收占比提升至约25%[20253] |
| 2025年 | 深算三号DCU投入市场;发布HSL 1.0互联总线协议;海光DCU覆盖20+行业、300+应用场景[20035] |
| 2025年12月 | 海光信息发布“双芯战略”(CPU+DCU)[20220] |
| 2025年5月 | 宣布拟吸收合并中科曙光(后调整为战略协同)[20354] |
| 2026年Q1 | 深算三号放量出货,DCU全面适配DeepSeek、Qwen3等300+主流大模型[20057] |
数据来源:综合整理
关键转折点分析:2019年实体清单是海光DCU发展史上最重要的分水岭。AMD停止技术交流后,海光被迫独立迭代。这对DCU的影响比CPU更大——CPU方面海光基于Zen1架构已积累足够消化能力;但DCU方面,AMD CDNA架构后续演进了CDNA2(MI200系列)和CDNA3(MI300系列),海光无法获得这些新架构的Matrix Core、统一内存等技术,DCU架构演进面临“断奶”挑战[20269]。
第二个转折点 是2024-2025年的AI大模型爆发。海光DCU凭借“类CUDA”兼容性,成为互联网大厂在NVIDIA受限后 最易迁移的国产替代方案,字节跳动、阿里、腾讯、百度等头部客户纷纷入场适配[20059]。
海光DCU采用8000系列命名,已迭代三代量产产品,第四代在研。产品线覆盖从32GB HBM2到128GB HBM3E的完整梯度。
| 参数 | 深算一号 DCU 8000 | 深算二号 DCU 8200 | 深算三号 DCU 8300 | 深算四号(在研) |
|---|---|---|---|---|
| 制程 | 7nm FinFET | 7nm+ | 5nm(等效) | 预计更先进节点 |
| 计算单元 | 64 CUs(4096核心) | 未公开(估计~80-96 CUs) | 未公开 | 未公开 |
| FP64 | 10.1 TFLOPS | ~20 TFLOPS(估) | 未公开 | 未公开 |
| FP32 | 11.5 TFLOPS | ~23 TFLOPS(估) | 未公开 | 未公开 |
| FP16/BF16 | 24.5 TFLOPS | 256 TFLOPS | 512 TFLOPS | 目标更高 |
| INT8 | 未公开 | 256 TOPS(估) | 512 TOPS | 未公开 |
| 显存 | 32GB HBM2 | 96GB HBM3 | 128GB HBM3E | 未公开 |
| 显存带宽 | 1,024 GB/s | 未公开(估1.2-1.5 TB/s) | ~1,200 GB/s | 未公开 |
| 显存位宽 | 4,096 bit | 未公开 | 未公开 | 未公开 |
| TDP | 350W | 300-350W | 250-350W | 未公开 |
| 互联 | PCIe Gen4 x16 | PCIe Gen4/5 + 多卡互联 | 互联带宽较前代提升2倍 | 未公开 |
| 量产时间 | 2021年 | 2023年Q3 | 2025年Q2-Q3 | 预计2026-2027 |
| 相对A100性能 | ~40-50% | ~80% | 目标对标A100 | 目标对标H200 |
数据来源:综合[20152]
深算一号详细参数(招股书数据 vs A100对比):
| 项目 | 深算一号 | NVIDIA A100 | 差距 |
|---|---|---|---|
| 制程 | 7nm | 7nm | 持平 |
| 核心数 | 64 CUs / 4096核 | 6912 CUDA + 432 Tensor | 架构不同,不可直接对比 |
| FP64 | 10.1 TFLOPS | 9.7 TFLOPS | 略优 |
| FP32 | 11.5 TFLOPS | 19.5 TFLOPS | ~59% |
| FP16 | 24.5 TFLOPS | 312 TFLOPS(含Tensor Core) | ~8%(无Tensor等效) |
| 显存 | 32GB HBM2 | 80GB HBM2e | 40% |
| 显存带宽 | 1,024 GB/s | 2,039 GB/s | ~50% |
| 多卡互联 | 184 GB/s | 600 GB/s(NVLink) | ~30% |
数据来源:[20152]
除深算系列外,海光还推出了面向推理场景的K100/K100AI系列:
| 参数 | K100 | K100 AI |
|---|---|---|
| FP32 | 10.1 TFLOPS | 49 TFLOPS |
| TF32 | - | 96 TFLOPS |
| FP16/BF16 | - | 192 TFLOPS |
| INT8 | - | 392 TOPS |
| 显存 | 64GB | 64GB |
| 显存带宽 | 896 GB/s | 896 GB/s |
| TDP | 400W | 400W |
| 相对A100性能 | - | ~60% |
数据来源:[20321]
架构师评注:深算一号的FP16算力(24.5 TFLOPS)与A100(312 TFLOPS)差距巨大,这是因为深算一号的FP16是 纯向量ALU算力,而A100的312 TFLOPS来自Tensor Core的矩阵乘法加速。深算二号/三号在这个维度上大幅追赶(256/512 TFLOPS),说明海光在DCU中引入了类似Tensor Core的矩阵加速单元。但需要注意的是,这些FP16数字来自券商和产业链估计,官方未完整披露,需进一步核验。
海光DCU的硬件架构源自AMD CDNA(Compute DNA)架构,核心特征包括:
大规模并行计算阵列:DCU基于DPP(Data Parallel Processor)阵列组织,通过计算单元流水线并行处理数据流[20017]。以深算一号为例,集成64个计算单元(CU),每个CU内部包含多个SIMD执行单元,总计约4,096个计算核心[20075]。
全精度支持:支持FP64、FP32、FP16、BF16、INT8、INT4全精度计算,在HPC科学计算领域具有天然优势[20075]。
HBM高带宽内存:集成片上HBM2/HBM2e/HBM3,满足大规模数据并行计算需求。
Chiplet技术储备:海光已掌握chiplet(芯粒)互联技术,在CPU和DCU产品中均有应用前瞻布局[20217]。
这是海光DCU最核心的竞争力。海光基于AMD ROCm开源生态,自主研发了 DTK(DCU Toolkit) 软件栈:
DTK架构:底层兼容ROCm,上层封装自研优化库,提供HIP(Heterogeneous-compute Interface for Portability)编程模型。HIP与CUDA API高度相似,支持 码级兼容[20100]。
CUDA迁移能力:通过hipify-clang工具可自动将CUDA代码转换为HIP代码,官方宣称迁移成本低至 15人天[20096]。自主开发HACC编译器支持类CUDA代码转化率超86%[20298]。
框架支持:全面支持PyTorch、TensorFlow、PaddlePaddle等主流深度学习框架。PaddlePaddle已官方支持海光DCU[20095]。
推理引擎:提供migraphx推理引擎,可直接加载ONNX模型[20293]。
虚拟化:支持vDCU(虚拟DCU)技术,可在Kubernetes集群中实现细粒度GPU资源切分(如按计算核心百分比和显存MB分配)[20019]。
关键限制:DTK不能与社区版ROCm混用,必须使用海光官方版本,这在一定程度上限制了开源社区生态的灵活性[20096]。
2025年12月,海光发布 HSL 1.0(Hygon System Link) 互联总线协议,这是海光在系统级互联方面的重要布局:
| 海光产品 | 技术渊源 | 对标NVIDIA | 对标AMD |
|---|---|---|---|
| 深算一号 | AMD CDNA (MI100) 授权框架 | A100 (性能约40-50%) | MI100 |
| 深算二号 | 自主迭代优化 | A100 (性能约80%) | MI200系列 |
| 深算三号 | 自主迭代 | A100/A800 | MI250X |
| 深算四号 | 自主迭代 | 目标H200 | MI300X(间接) |
| DTK软件栈 | ROCm深度定制 | CUDA | ROCm |
架构师评注:海光DCU的“类CUDA”标签需要谨慎理解。它不是CUDA的逆向工程或兼容层,而是 通过ROCm/HIP生态实现与CUDA开发体验的相似性。这带来的好处是:开发者从CUDA迁移到ROCm再迁移到DTK,学习成本远比迁移到华为CANN或寒武纪Neuware低。但代价是:海光DCU的性能优化受限于ROCm生态的成熟度,而ROCm本身在NVIDIA CUDA面前仍有较大差距。
海光DCU的CUDA迁移路径如下:
NVIDIA CUDA代码 → hipify-clang工具 → HIP代码 → DTK编译 → 海光DCU运行
这一路径的优势在于:
劣势在于:
截至2025年末,海光DCU已完成与DeepSeek、Qwen3、LLaMa、GPT、ChatGLM、文心一言、通义千问等 300+主流大模型 的适配[20057]。2025年2月,海光DCU完成DeepSeek V3和R1模型的国产化适配并正式投入使用[20056]。2026年5月,海光DCU完成腾讯混元Hy3 Preview适配[20057]。
海光通过“光源-光合开发者社区”(sourcefind.cn)提供模型仓库、Docker镜像、开发文档等资源,DTK版本已迭代至25.04,支持PyTorch 2.1.0等主流版本[20106]。
海光DCU的商业化呈现“起步晚、加速快”的特征:
| 客户类型 | 代表客户 | 合作内容 |
|---|---|---|
| 互联网 | 字节跳动、腾讯、阿里、百度 | DCU大模型训练/推理适配,深度合作[20059] |
| 运营商 | 三大运营商 | AI服务器采购、智算中心建设[20123] |
| 金融 | 国有银行 | 金融风控等场景[20050] |
| 政府 | 国家税务总局、海关总署、各地政府 | 政务AI应用[20050] |
| 超算 | 国家级超算中心 | HPC科学计算集群[20223] |
关键客户进展:字节跳动、阿里云已完成深算三号测试,双方保持月度技术沟通;阿里计划2025年采购1万片[20047]。运营商和政府领域预计采购5万片[20047](此数据需进一步核验,来源为知乎,非官方公告)。
主要采用直销模式,2024年直销收入占比超过84%[20262]。DCU产品以加速卡形式销售,搭配海光CPU平台形成“CPU+DCU”一体化方案。
| 指标 | 2023年 | 2024年 | 2025年 | 2026年Q1 |
|---|---|---|---|---|
| 营业收入 | 60.12亿元 | 91.62亿元 | 143.77亿元 | 40.34亿元 |
| 同比增速 | - | +52.40% | +56.92% | +68.06% |
| 归母净利润 | 12.63亿元 | 19.31亿元 | 25.45亿元 | 6.87亿元 |
| 研发投入 | - | 34.46亿元 | 45.69亿元 | - |
| 研发投入占比 | - | 37.6% | 31.8% | - |
| 毛利率 | - | 63.72% | ~63% | ~61.7% |
数据来源:[20001]
DCU收入占比:2024年DCU收入占比约25%[20253],按此推算2024年DCU收入约23亿元。2025年随着深算三号放量,DCU占比有望进一步提升至30-35%区间(券商估算,非官方披露)。
融资与估值:
券商预测:东海证券预计2025-2027年营收分别为143.05/207.76/287.59亿元[20249]。
“类CUDA”生态兼容性:国产AI芯片中CUDA迁移成本最低,这是海光DCU相比华为昇腾(CANN)、寒武纪(Neuware)的最大差异化优势。开发者无需学习全新软件栈即可将现有CUDA应用迁移到国产平台。
“CPU+DCU”双芯协同:海光是国内唯一同时拥有x86 CPU和GPGPU能力的公司。CPU的生态优势(兼容Windows/Linux、数百万x86应用软件)为DCU的推广提供了天然的系统级整合基础[20227]。
HSL互联总线:自研CPU-DCU高速互联协议,正在构建类似NVIDIA NVLink的系统级互联能力,这在国产算力中具备稀缺性[20227]。
HPC+AI双覆盖:DCU全精度(FP64/FP32/FP16/INT8)计算能力使其同时覆盖HPC科学计算和AI训练推理,应用场景比纯AI加速器更广。
中科院系背景:深度绑定中科院计算所和曙光体系,在信创市场和超算中心建设中具有先天优势。
上市公司平台:相比多数未上市的国产GPU创业公司,海光拥有更强的融资能力和抗风险能力。
架构根源受制于AMD:DCU架构源自AMD CDNA1授权框架,2019年实体清单后无法获得CDNA2/CDNA3新技术。深算系列至今仍是CDNA1的“魔改”版本,在Matrix Core、统一内存架构等前沿特性上与AMD MI300X差距巨大[20280]。
训练能力受限:有产业观点认为,海光DCU在训练方面“高不成、低不就”——浮点性能偏低且集群组网能力不足,不适合大规模模型训练[20292]。虽然深算三号大幅提升,但官方未披露大规模集群训练的实际效率数据。
客户集中度极高:前五大客户营收占比超过90%[20248],单一客户依赖风险显著。
软件生态成熟度:相比CUDA生态,DTK仅覆盖约60%的AI开发场景,第三方工具链支持仍需完善[20113]。
存货风险:57.94亿元存货相当于约6个月销量,在芯片迭代加速背景下存在减值风险[20218]。
x86授权风险:虽然海光宣称x86授权为永久授权,但中美科技博弈加剧背景下,授权续存仍存在不确定性[20137]。
海光DCU的供应链风险是国产GPU公司中 最复杂 的之一:
| 风险维度 | 具体风险 | 严重程度 |
|---|---|---|
| 代工 | 先进制程(7nm/5nm)依赖台积电/中芯国际,受实体清单限制 | 🔴高 |
| HBM | HBM2e/HBM3/HBM3E全部依赖海外(SK海力士/三星/美光),2024年12月美国对HBM实施新出口管制 | 🔴高 |
| EDA工具 | 依赖Synopsys/Cadence,实体清单后受限 | 🟡中 |
| AMD授权 | 无法获得新架构授权,长期自主迭代能力存疑 | 🟡中 |
| IP核 | 部分高速接口IP(PCIe、HBM PHY等)依赖海外供应商 | 🟡中 |
关键风险点:2024年12月美国升级对华半导体管制,新增对HBM的出口管控[20115]。海光DCU深算三号使用HBM3E,深算四号预计需要更先进的HBM,HBM供应中断可能导致高端产品线停滞。海光已通过提前囤货HBM来应对,但长期可持续性存疑。
| 维度 | 海光DCU | NVIDIA | AMD | Intel |
|---|---|---|---|---|
| 架构路线 | GPGPU (CDNA1衍生) | CUDA GPU (Hopper/Blackwell) | CDNA3 GPU | Xe GPU / Gaudi ASIC |
| 软件栈 | DTK(基于ROCm) | CUDA | ROCm | oneAPI |
| CPU+加速器协同 | 海光CPU + DCU | Grace + Hopper/Blackwell | EPYC + Instinct | Xeon + Gaudi |
| 互联总线 | HSL | NVLink/NVSwitch | Infinity Fabric | UPI |
| 制程 | 7nm/5nm (SMIC) | 4nm (TSMC) | 5nm/4nm (TSMC) | 7nm/5nm (TSMC) |
| 生态兼容性 | 类CUDA(通过HIP) | 原生CUDA | 类CUDA(通过HIP) | 跨架构 |
| 训练性能 | A100的40-80%(估) | 基准 | 接近NVIDIA | 追赶中 |
| 推理性能 | A100的60-80%(估) | 基准 | 接近NVIDIA | 追赶中 |
架构师评注:海光DCU在国产AI芯片中与NVIDIA的“亲缘关系”最近——不是指性能接近,而是指 软件生态和开发体验的相似性。这是海光最大的战略价值:当一家公司从NVIDIA切换到国产芯片时,迁移到海光DCU的代码改动量最小、工程师培训成本最低、已有工具链可最大程度复用。这种“软着陆”能力在信创替代场景中是华为昇腾、寒武纪等自研指令集架构所不具备的。
2026年:
2027年:
2028年:
关键变量:
架构师总结:海光DCU是国产AI芯片中 最务实的路线选择。它不追求架构的自研纯洁性,而是以“最快可用”为目标,通过ROCm生态解决了国产芯片最致命的软件生态问题。在当前美国持续收紧芯片出口管制的背景下,海光DCU的“类CUDA”兼容性使其成为互联网大厂最现实的NVIDIA替代方案。但长期来看,海光DCU面临的核心矛盾是:CDNA1架构框架的“天花板”何时到来? 当NVIDIA Blackwell和AMD MI400系列将架构代差拉大到2-3代时,海光的“魔改CDNA1”路线还能否保持竞争力?这是所有投资人需要持续跟踪的核心问题。
注:本报告中部分DCU性能参数(如深算二号/三号FP16算力、显存带宽等)来自券商研报和产业链估计,海光官方未完整披露,需进一步核验。采购数据(如“阿里计划采购1万片”)来自非官方渠道,仅供参考。
同上
定位:中国第一家实现GPU芯片自主研制并量产上市的国产GPU企业,也是唯一一家以“军工图形显控为基本盘、民用信创GPU为增长极、AI智算为第三曲线”的独特“军转民”国产GPU厂商。
核心判断:景嘉微是中国国产GPU的“活化石”——从2006年创立到2014年JM5400流片,再到2025年JM11和CH37,19年坚守GPU赛道,堪称国内GPU创业的“孤勇者”。但“先行者”不等于“领先者”——在摩尔线程、壁仞等后浪以“对标H100/B200”高调出场的时代,景嘉微的JM11仍停留在FP32 6 TFLOPS、DDR4显存的技术区间,与NVIDIA的代际差距清晰可见。景嘉微的真正价值不在于“追平NVIDIA”,而在于它是中国唯一一个从军用机载图显到信创桌面再到AI智算全覆盖的“全栈国产GPU”平台——这种“从最底层向上生长”的基因,是其他国产GPU厂商所不具备的。
长沙景嘉微电子股份有限公司(Jingjia Microelectronics Co., Ltd.)成立于2006年4月,总部位于湖南省长沙市,2016年3月在深交所创业板上市,股票代码300474,是中国A股市场第一家、也是长期唯一的GPU芯片设计上市公司 [20376]。公司采用Fabless模式,主要从事高可靠电子产品的研发、生产和销售,产品涉及 图形显控领域、小型专用化雷达领域 和 GPU芯片领域 三大业务板块 [20544]。
景嘉微的市场定位极为独特:它既不是纯粹的“AI芯片公司”(如寒武纪),也不是“全功能GPU公司”(如摩尔线程),而是一家 从军工图显出发、逐步向民用信创和AI算力延伸的“专用+通用”双轨GPU企业。在国产GPU厂商中,景嘉微是唯一一家同时具备以下三个标签的公司:
公司目前处于“以军养民、以芯拓AI”的转型关键期——图形显控和雷达基本盘贡献稳定现金流,但整体体量较小(2025年营收7.20亿元),GPU芯片业务和AI新业务尚未形成规模收入 [20705]。
景嘉微的创始团队带有鲜明的 国防科技大学 基因,与华为的“黄埔军校”渊源相同,但团队更偏军工电子和嵌入式系统背景,而非GPU架构或AI计算出身。
| 角色 | 姓名 | 背景 |
|---|---|---|
| 创始人/董事长/总经理 | 曾万辉 | 1970年生,湖南娄底新化人,国防科技大学微波与毫米波技术专业硕士。1995-2005年在北京新神剑经济技术发展有限公司任市场部经理。2006年加入饶先宏和胡亚华创办的景嘉微,出资并担任董事长。带领团队从零研制出JM5400等自主可控GPU芯片 [20386] |
| 副董事长/实控人之一 | 喻丽丽 | 1968年生,曾万辉妻子,高中学历(令人惊讶的学历背景),与曾万辉共同为公司实际控制人。夫妇合计直接+间接持有公司约36.68%的股份 [20395] |
| 联合创始人 | 饶先宏 | 国防科技大学校友,负责软件开发,持股约3.15% [20390] |
| 联合创始人 | 胡亚华 | 国防科技大学校友,负责硬件开发,持股约3.64% [20390] |
创始团队的故事颇具传奇色彩:2006年,曾万辉与国防科大校友胡亚华、饶先宏彻夜长谈后决定出资加入。创业初期,曾万辉负责市场开拓但不领工资,饶先宏和胡亚华每人每月仅拿3000元 [20390]。公司最早接到一家研究所委托开发显卡驱动软件,这让团队意识到GPU芯片的巨大潜力,从此将资源集中于GPU研发 [20387]。
团队评价:创始团队背景稳健但偏传统——核心成员来自国防科大微波/毫米波和嵌入式系统领域,而非GPU架构、图形学或AI计算方向。这与摩尔线程(NVIDIA核心团队创业)、壁仞(国际大厂架构师创业)形成鲜明对比。这种基因决定了景嘉微更擅长“从0到1的自主突破”和“高可靠军工级产品”,但在“高性能通用GPU架构”和“AI软件生态”方面存在天然短板。
2023年,曾万辉、喻丽丽夫妇以110亿元财富位列胡润全球富豪榜第2067位;2025年以170亿元财富位居第1624位 [20399]。
景嘉微的发展史几乎就是中国国产GPU从无到有的完整缩影,也是为数不多真正经历过“从零研制GPU”全过程的公司。
| 时间 | 里程碑 |
|---|---|
| 2006年4月 | 公司成立,饶先宏、胡亚华出资设立,曾万辉同年注资加入 [20397] |
| 2010年 | 获国家“核高基”重大专项立项,开始研制自主知识产权GPU芯片 [20568] |
| 2014年4月 | 第一代GPU芯片 JM5400 流片成功,国内首款完全自主知识产权GPU,打破国外垄断,先后应用于国产军用飞机和神舟飞船 [20565] |
| 2016年3月 | 深交所创业板上市,成为“A股GPU第一股” [20394] |
| 2018年8月 | 第二代GPU芯片 JM7200(28nm制程)流片成功,性能较JM5400翻倍,开始进入民用桌面市场 [20565] |
| 2019年 | JM7201商用版推出,支持国产CPU和操作系统,开启信创市场布局 [20572] |
| 2021年11月 | 第三代GPU芯片 JM9系列(JH920)完成流片,性能对标GTX 1080区间,兼顾高性能显示与AI计算 [20565] |
| 2021年12月 | 被美国商务部列入实体清单,获取涉及美国管制的商品、软件和技术受限 [20483] |
| 2023年5月 | 发布定增预案,拟募资不超过42亿元,投向高性能通用GPU芯片研发及产业化项目 [20583] |
| 2024年3月 | 景宏系列 高性能智算模块及整机产品研发成功,填补AI训练/推理/科学计算领域产品空白 [20503] |
| 2024年10月 | 38.33亿元定增资金到账,葛卫东以6亿元参与认购 [20683] |
| 2024年12月 | 第四代GPU芯片 JM11系列 完成流片、封装,初步测试未发现异常 [20445] |
| 2025年1月 | JM11系列测试指标公布:FP32 6 TFLOPS、FP16 12 TFLOPS、像素填充率192 GPixel/s [20663] |
| 2025年8月 | 拟以2.2亿元增资控股子公司诚恒微,进军边端侧AI芯片领域 [20423] |
| 2025年12月 | 诚恒微CH37系列边端侧AI SoC芯片成功点亮,64 TOPS@INT8 [20425] |
| 2026年5月 | 湖南省2026年十大技术攻关项目“具身智能机器人多模态高性能SOC芯片研发”启动会在景嘉微召开 [20633] |
研发节奏变化值得关注:JM5400研发耗时8年,JM7200耗时4年,JM9系列约3年,JM11约3年——研发周期在缩短,但仍在“3年一代”的节奏,与摩尔线程“一年一代架构”的速度形成鲜明对比 [20571]。
景嘉微的GPU芯片形成了JM5/JM7/JM9/JM11四大代际产品线,从65nm到未公开制程,覆盖从军工嵌入到云端渲染的完整场景。
| 芯片代 | 型号 | 年份 | 制程 | FP32算力 | 显存 | 功耗 | 对标 | 目标市场 |
|---|---|---|---|---|---|---|---|---|
| 第一代 | JM5400 | 2014 | 65nm | ~1.5 TFLOPS | 1GB DDR3 | 6W | ATI M96 | 军用机载图显 |
| 第二代 | JM7200/JM7201 | 2018 | 28nm | ~0.5 TFLOPS | 4GB DDR3 | 10-20W | NVIDIA GT640 | 信创桌面办公 |
| 第三代 | JM9系列(JM9230/JM9271) | 2021 | 14nm | 1.5-8 TFLOPS | 8-16GB | 30W | GTX 1050-1080 | 信创+高性能显示+AI计算 |
| 第四代 | JM11系列 | 2024 | 未公开(~14nm/7nm) | 6 TFLOPS | 最大64GB DDR4/LPDDR4 | <150W | RTX 2060-3060区间 | 云端渲染/云桌面/虚拟化 |
2025年1月17日,景嘉微正式公告JM11系列测试指标,这是目前公开信息最完整的国产GPU规格之一 [20663]:
| 参数 | 规格 |
|---|---|
| 核心频率 | 1.5 GHz |
| FP32算力 | 最大 6 TFLOPS |
| FP16算力 | 最大 12 TFLOPS |
| 像素填充率 | 最大 192 GPixel/s |
| 显存位宽 | 1024 bit DDR4/LPDDR4 |
| 显存容量 | 最大 64 GB |
| 主机接口 | PCIe 4.0 x16 |
| 视频编码 | 8路4K@60fps / 32路1080P@60fps (H.265/H.264) |
| 视频解码 | 16路4K@60fps / 64路1080P@60fps (H.265/H.264/MPEG2/MPEG4) |
| 硬件虚拟化 | SR-IOV,最大支持32路云桌面/64路云游戏 |
| 显示接口 | HDMI 2.0×4 / eDP 1.2×2 / VGA×1,最大分辨率3840×2160@60Hz |
| 图形API | OpenGL 4.6 / OpenCL 3.0 / Vulkan 1.3 / DirectX 11 |
| 功耗 | <150W |
架构师点评:JM11的1024bit DDR4显存位宽是一个很有意思的设计选择——在无法使用HBM且GDDR6供应受限的情况下,用“超宽位宽+DDR4”来弥补带宽不足。这种“用面积换带宽”的策略在嵌入式/军工场景中常见,但在数据中心GPU中非常罕见,说明JM11本质上仍是一款 以图形渲染和虚拟化为主、兼顾轻度计算 的产品,而非真正的AI训练/推理加速器。
2024年3月,景嘉微推出 景宏系列高性能智算模块及整机产品,这是公司从图形GPU向AI算力领域跨越的关键一步 [20503]:
2025年,景嘉微发布了 全国产AI加固服务器,单机最高可搭载2000 TOPS算力与256GB高速显存,预置DeepSeek大模型,单机可驱动DeepSeek-R1 70B蒸馏模型推理,支持200+用户高并发访问 [20531]。
⚠️ 需要警惕的是:景宏系列公告中 未披露具体的算力指标、芯片型号、制程工艺和集群规模,这在AI算力产品中是极不寻常的。公开资料极为有限,无法判断其实际性能水平。需进一步核验:景宏系列究竟是基于JM11的模块化封装,还是基于全新芯片架构?
2025年12月15日,景嘉微控股子公司无锡诚恒微电子有限公司自主研发的边端侧AI SoC芯片 CH37系列 完成流片、封装、回片及点亮 [20425]:
| 参数 | 规格 |
|---|---|
| 架构 | 自主架构,单芯片集成CPU+GPU+NPU+GPGPU+ISP |
| AI算力 | 64 TOPS @INT8 |
| 目标场景 | 具身智能、边缘计算、机器人、AI盒子、智能终端、无人机吊舱 |
| 差异化 | 双模融合ISP架构 |
CH37的64 TOPS算力在边缘AI芯片中属于中上水平(对标地平线征程6、高通SA8295等),但GPU+NPU+GPGPU的异构架构设计具有一定差异化优势 [20434]。
景嘉微的GPU架构采用 完全自主研发的正向设计 路线,不依赖任何第三方GPU IP授权。GPU领域的指令集不像CPU那样有ARM/x86等对外授权模式,各公司均独立研发,不对外公布 [20630]。这意味着景嘉微掌握了从指令集定义、微架构设计到物理实现的全栈能力——这是国产GPU厂商中极为稀缺的底层能力。
景嘉微的GPU技术演进路径与主流厂商截然不同:
从军用嵌入到云端的逆向路径:大多数GPU公司(如NVIDIA)是从游戏显卡起家,逐步拓展到数据中心。景嘉微则是从军用机载嵌入式计算(-55°C到+125°C、高可靠性、抗辐射)起步,向下兼容到桌面,再向上拓展到云端。这种路径决定了其芯片在 可靠性、功耗控制和极端环境适应性 方面具有独特优势,但在 峰值性能、软件生态和先进制程 方面天然落后。
“图形优先”的架构设计:JM11的核心优势在于图形渲染(像素填充率192 GPixel/s)、视频编解码(32路编码/64路解码)和硬件虚拟化(SR-IOV),而非矩阵乘法或张量计算。这使其在云桌面、云游戏、工业渲染等场景具有竞争力,但 不适合大模型训练。
DDR4显存体系的“带宽短板”:JM11采用1024bit DDR4/LPDDR4显存,带宽约119.4 GB/s,仅为NVIDIA H100(HBM3 3.35 TB/s)的约3.6%。即便是消费级的RTX 4060,其GDDR6带宽也达到272 GB/s。这是JM11在AI计算中的最大瓶颈。
| 维度 | JM11水平 | NVIDIA对标 | 差距 |
|---|---|---|---|
| 图形渲染 | 192 GPixel/s | RTX 2060(~80 GPixel/s) | 纸面接近,驱动适配是变量 |
| FP32算力 | 6 TFLOPS | RTX 2060(~6.5 TFLOPS) | 接近 |
| 显存带宽 | ~119 GB/s | RTX 3060(~360 GB/s) | 约1/3 |
| AI训练 | 不支持(无FP8/BF16高效支持) | H100(FP8 1979 TFLOPS) | 代差巨大 |
| 制程 | 未公开(14nm/7nm) | 4nm(RTX 40系列) | 2-3代差距 |
综合评价:JM11在图形渲染和视频处理能力上已接近NVIDIA中端消费级产品(RTX 2060/3060区间),但在AI计算方面存在结构性短板——DDR4带宽、无FP8原生支持、无Tensor Core等效单元,使其无法参与大模型训练竞争。JM11是一款好用的“国产云桌面/云渲染GPU”,但远不是“AI加速器”。
景嘉微的软件生态建设是国产GPU中最“朴实”但也是最“薄弱”的环节之一。
| 维度 | 状态 |
|---|---|
| 图形API | OpenGL 4.6、Vulkan 1.3、DirectX 11 [20665] |
| 计算API | OpenCL 3.0 [20665] |
| 操作系统 | Windows、Linux、中标麒麟、银河麒麟、统信UOS [20534] |
| CPU架构 | X86、ARM、MIPS [20534] |
| 驱动更新频率 | 约半年一次,可根据客户需求不定期更新 [20534] |
| 虚拟化 | SR-IOV硬件虚拟化,支持32路云桌面/64路云游戏 [20665] |
| AI框架 | 景宏系列支持主流计算生态和深度学习框架(具体框架未公开)[20528] |
景嘉微的生态策略与摩尔线程截然不同:摩尔线程自研MUSA软件栈对标CUDA,目标是“国产CUDA替代”;景嘉微则走的是 “适配兼容”路线——与国内主要CPU厂商(龙芯、飞腾、鲲鹏、兆芯等)、操作系统厂商(麒麟、统信)和整机厂商(长城、浪潮、宝德等)开展广泛适配,构建国产化计算机应用生态 [20537]。
2025年,景嘉微与安超云软件、长春吉大正元、苍穹数码等企业达成战略合作,聚焦党政、央国企、公检法、智慧城市、应急救援、低空经济等行业场景,形成“GPU+云OS”一体化交付方案 [20626]。
景嘉微的业务结构正在经历剧烈变化。根据2025年年报,三大业务板块的收入情况如下 [20705]:
| 业务板块 | 2025年营收 | 同比增长 | 占比 |
|---|---|---|---|
| 图形显控领域产品 | 4.51亿元 | +84% | 62.6% |
| 小型专用化雷达 | 未单独披露 | 恢复增长 | ~15% |
| 芯片领域产品(GPU) | 同比下降 | 下滑 | ~19% |
| 其他 | 大幅收缩 | — | ~3% |
2024年,图形显控营收2.45亿元(同比-47.27%),芯片营收1.35亿元(同比+33.72%)[20703]。2025年图形显控大幅反弹(+84%),但芯片业务反而下滑,说明 GPU芯片在通用市场的拓展仍面临较大阻力 [20714]。
| 年份 | 营收 | 净利润 | 毛利率 | 研发费用 | 研发费用率 |
|---|---|---|---|---|---|
| 2022 | ~11.5亿元 | ~2.9亿元 | ~60%+ | ~2.5亿元 | ~23% |
| 2023 | 7.13亿元 | ~0.60亿元 | 下降 | 3.31亿元 | 46.44% |
| 2024 | 4.66亿元 | -1.65亿元 | 下降 | ~2.8亿元 | ~60% |
| 2025 | 7.20亿元 | -1.65亿元 | 下降 | 4.28亿元 | 59.39% |
来源:2022-2024年报 [20464],2025年报 [20705]
营收剧烈波动:2022年营收约11.5亿元,2024年降至4.66亿元,2025年回升至7.20亿元——波动幅度远超正常半导体周期。核心原因是军工和信创业务受政策/招标节奏影响极大,“今年集中采购、明年暂停招标”是常态。
连续两年亏损:2024年和2025年净利润均为-1.65亿元,累计亏损3.3亿元。但亏损并非经营性崩塌——研发费用率从23%飙升至59%,本质上是用利润换未来 [20634]。
研发投入极度激进:近三年累计研发投入突破10.40亿元,占累计营收比例高达54.72% [20367]。2026年Q1研发投入1.42亿元,同比大增102.67% [20367]。对一个年营收仅7亿元的公司而言,这种研发强度近乎“All-in”。
定增资金充裕:2024年10月完成38.33亿元定向增发,20家机构和个人投资者获配,葛卫东以6亿元参与 [20683]。这为未来2-3年的研发提供了充足弹药。
截至2026年6月,景嘉微市值约300-400亿元区间(具体以实时行情为准)。券商给予的估值区间:目标价约79-106元,对应2026年PS约35-45倍(华创证券、浙商证券等)[20625]。
| 维度 | 评价 |
|---|---|
| 自主知识产权 | ★★★★★ —— 所有GPU芯片为完全正向设计,不依赖任何第三方IP,掌握从指令集到物理实现的全栈技术 |
| 军工壁垒 | ★★★★★ —— 军用飞机图显模块85%+市占率,军品资质、定型周期、客户黏性构成极高壁垒 |
| 全栈国产化能力 | ★★★★☆ —— 从芯片到模块到整机到驱动,适配8种以上国产CPU和OS,是国内最完整的GPU国产化平台 |
| 先发积累 | ★★★★☆ —— 19年GPU研发经验,4代芯片量产经验,是国内唯一经历过完整GPU产品生命周期的团队 |
| 资金储备 | ★★★★☆ —— 38亿定增到账,短期内无融资压力 |
| 维度 | 评价 |
|---|---|
| AI算力严重不足 | 最核心短板。JM11 FP32仅6 TFLOPS,DDR4带宽~119 GB/s,无FP8原生支持,在大模型训练/推理场景中几乎不可用 |
| 制程落后 | JM11制程未公开,但推测在14nm-7nm之间,与NVIDIA 4nm存在2-3代差距 |
| 软件生态薄弱 | 无自研AI编译器栈,无CUDA兼容层,AI框架支持有限,仅靠OpenCL难以在AI算力市场立足 |
| 产品迭代速度慢 | “3年一代”的节奏在AI时代过于缓慢,2025年推出的JM11性能仅相当于NVIDIA 2018-2020年水平 |
| 营收体量过小 | 7亿元年营收难以支撑GPU+AI芯片+雷达+边端AI四条战线的研发投入 |
| 团队基因偏军工 | 创始团队来自国防科大微波/毫米波领域,缺乏GPU架构和AI软件栈的顶尖人才 |
景嘉微于 2021年12月被美国商务部列入实体清单,是国产GPU公司中最早被制裁的之一 [20483]。公司官方回应“总体影响可控,不会对公司经营产生实质性影响” [20485]。
但实际影响需要客观评估:
景嘉微当前最高制程推测为14nm/7nm(JM11未公开),而NVIDIA最新产品已采用4nm(台积电N4)。考虑到国内先进制程的产能限制,景嘉微未来3-5年的制程天花板可能在7nm左右。这意味着单芯片晶体管数量将受到硬约束,性能天花板清晰可见。
JM11采用DDR4/LPDDR4显存,规避了HBM和GDDR6的供应限制——这是一种“务实”的选择,但也从根本上限制了AI计算性能。如果未来需要升级到HBM或GDDR6X,将面临新的供应链风险。
| 维度 | NVIDIA对应 | AMD对应 | 景嘉微实际水平 |
|---|---|---|---|
| 图形渲染 | RTX 2060/3060 | RX 6600 | JM11纸面接近RTX 2060,实际驱动适配后可能打折扣 |
| AI训练 | V100(2017) | — | 差距巨大,景宏系列性能未公开,JM11不适合训练 |
| AI推理 | T4(2018) | — | JM11可做轻量推理,但带宽和算力严重不足 |
| 制程 | 12nm FFN(2017) | — | 约2-3代差距 |
| 软件生态 | CUDA 8.0时代(2016) | — | 无自研AI软件栈,生态差距约10年 |
| 军用GPU | — | — | NVIDIA/AMD不涉足中国军用市场,景嘉微在此领域无对标 |
一个残酷但诚实的判断:如果用汽车行业类比,NVIDIA H100/B200相当于特斯拉Model S Plaid,景嘉微JM11约等于一台经过军工加固的2018款燃油车——可靠、耐用、自主可控,但在加速、智能化和生态方面完全不在一个时代。
基准情景(概率60%):
乐观情景(概率20%):
悲观情景(概率20%):
景嘉微不太可能成为“中国版英伟达”,但极有可能成为 “中国版Radeon(军用/嵌入式版)”——在特定封闭市场(军工、航天、信创)中拥有极高壁垒和不可替代性,但在开放市场(AI算力、消费GPU)中难以与摩尔线程、华为昇腾等竞争。其真正的价值在于 “自主可控GPU全栈能力”的战略稀缺性,而非商业竞争力。
| 评分维度 | 评分 | 依据 |
|---|---|---|
| 芯片架构能力 | 3/5 | 全自研正向设计,但架构性能落后国际2-3代 |
| 芯片工程能力 | 4/5 | 4代芯片量产经验,军工级可靠性验证 |
| 软件栈成熟度 | 2/5 | 图形API支持尚可,AI软件栈几乎空白 |
| AI训练能力 | 1/5 | JM11不适合训练,景宏系列性能未公开 |
| AI推理能力 | 2/5 | 可做轻量推理,带宽和算力严重不足 |
| 图形能力 | 3/5 | 中端水平,满足信创和云桌面需求 |
| HPC能力 | 2/5 | 仅OpenCL,无CUDA/Fortran生态 |
| 集群能力 | 2/5 | 景宏系列支持多卡互联,但规模未公开 |
| 生态能力 | 3/5 | 信创生态适配最完整,但AI生态薄弱 |
| 商业化能力 | 3/5 | 军工基本盘稳定,信创有基础,AI待验证 |
| 财务健康度 | 3/5 | 38亿定增资金充裕,但营收体量小且持续亏损 |
| 供应链安全性 | 4/5 | 采用DDR4和国内可代工制程,受制裁影响相对可控 |
| 未来成长性 | 3/5 | 军工+信创+AI+边端四线布局,但每条线都面临强劲竞争 |
一句话总结:景嘉微是中国国产GPU的“开山鼻祖”,19年坚守令人尊敬,但技术路线偏保守、AI算力短板明显。在军工图显和信创桌面GPU领域,它是不可替代的“国家队”;在大模型训练和AI算力领域,它需要一场“自我革命”——否则将被锁定在“小而美”的利基市场中。投资景嘉微,本质上是在赌“中国需要在任何情况下都能自主可控的GPU”这一战略判断的正确性,而非在赌它能追平NVIDIA。
同上
天数智芯是国产GPU创业浪潮中最具“务实落地”色彩的样本。它的故事没有壁仞那般“高调对标”的戏剧性,也没有寒武纪那般“纯自研DSA”的学术光环,而是以 “量产先行、生态兼容、场景覆盖” 为标签,悄然完成了从“0到1”的突破,并在2026年正式迈入资本市场。其定位清晰,打法稳健,是国产GPU中 商业化落地最扎实的厂商之一。
天数智芯的产品路线图展现出一种 节奏感极强的“务实主义”,核心逻辑是 先解决“有没有”,再解决“好不好”,最后追求“全不全”。
第一步:抢跑量产,抢占“国产首发”心智
2021年,当一众国产GPU初创公司还在PPT上比拼参数时,天数智芯的 天垓100(Gen1) 已完成流片、点亮、量产,成为中国首款量产的通用GPU训练芯片 [20750]。它采用7nm制程,集成240亿晶体管,2.5D CoWoS封装,配备32GB HBM2显存,提供147 TFLOPS的FP16算力 [20762]。这些参数在2021年堪称“国产天花板”,但天数智芯并未过度宣传其“性能比肩A100”,而是将重点放在 “跑通200+应用场景、触达300+客户”的工程化验证上 [20788]。这种“先让客户用起来”的策略,为其积累了宝贵的早期生态和客户信任。
第二步:补齐推理,形成“训推一体”组合拳
随后,2022年底,天数智芯推出 智铠100,这是一款7nm推理GPGPU,基于第二代架构,提供384 TOPS(INT8)和96 TFLOPS(FP16)的峰值算力,功耗仅150W [20773]。智铠100的发布,使天数智芯成为 国内唯一同时拥有云端训练+推理完整解决方案的硬科技公司 [20775]。这不仅补齐了产品线,更关键的是,其“训推一体”方案允许客户在不增加额外购置成本的情况下完成增量训练,有效降低了客户的总拥有成本(TCO) [20763]。
第三步:从云端到边缘,完成“全场景”布局
2026年1月,刚刚港股上市的天数智芯发布了 “彤央”系列边端算力产品,覆盖100T到300T的稠密算力 [20786]。其中,TY1000模组体积小巧,实测综合效率号称超越英伟达AGX Orin [20977];TY1200则以300 TOPS的性能剑指AIPC、具身智能等前沿场景 [20974]。至此,天数智芯构建了 “天垓(训练)+ 智铠(推理)+ 彤央(边缘)”的全场景算力产品矩阵,其战略意图非常清晰:从云端到边缘,从算力中心到终端设备,为客户提供“全家桶”式的一揽子算力解决方案 [20793]。
天数智芯的商业化进程在国产GPU中属于第一梯队,但呈现出典型的“高增长、高投入”特征。
天数智芯的团队演变,是理解其战略逻辑的关键。创始人李云鹏的Oracle软件背景,为公司注入了“软硬件协同”的基因 [20750]。然而,2021年李云鹏出局,由其接任者刁石京(前工信部官员、紫光集团联席总裁)和现任CEO盖鲁江(财务背景)主导,标志着公司战略从“技术驱动”向“资本和量产驱动”的明确切换 [20820]。
这种切换的利弊非常鲜明:
天数智芯在上市后发布了雄心勃勃的 四代架构路线图:天枢(2025年,超越Hopper)、天璇(2026年,对标Blackwell)、天玑(2026年,超越Blackwell)、天权(2027年,超越Rubin) [20789]。该路线图旨在用两年时间走完NVIDIA三代架构的演进路径,极具挑战性。
然而,现实考验同样严峻。其当前产品与NVIDIA H200/B200的TPP性能密度差距高达5-12倍 [20729]。此外,美国对台积电7nm及以下先进制程的代工禁令,对所有依赖先进制程的国产GPU厂商构成了共同威胁,天数智芯的供应链安全同样存在不确定性 [20881]。
总结:天数智芯是国产GPU赛道上 最懂“工程落地”和“客户需求”的务实派。它以“量产快、迁移易、覆盖广”为核心卖点,稳扎稳打地完成了从0到1的突破,并成功卡位字节跳动等关键客户。其稳健的打法使其在早期淘汰赛中存活并壮大,但未来能否在规模化的商业市场和技术深水区持续突破,将取决于其 四代架构能否如期兑现 以及 核心团队的稳定性。
同上
沐曦集成电路(上海)股份有限公司(MetaX Integrated Circuits (Shanghai) Co., Ltd.,688802.SH)成立于2020年9月,总部位于上海,2025年12月17日登陆科创板,是继摩尔线程后的”国产GPU第二股”[21088]。公司以”全栈自研GPU芯片及计算平台”为定位,覆盖AI训练推理、图形渲染和科学计算三大场景,是国产GPU”四小龙”中商业化速度最快的厂商之一[21231]。
| 公司名称 | 沐曦集成电路(上海)股份有限公司 |
|---|---|
| 英文名 | MetaX Integrated Circuits (Shanghai) Co., Ltd. |
| 成立时间 | 2020年9月 |
| 上市时间 | 2025年12月17日(科创板,688802.SH) |
| 总部 | 上海 |
| 研发中心 | 北京、南京、成都、杭州、深圳、武汉、长沙等 |
| 创始人/实际控制人 | 陈维良(合计控制22.94%表决权)[21073] |
| 发行价 | 104.66元/股 |
| 首日收盘价 | 829.90元(+692.95%)[21295] |
| 当前市值 | ~2,780-2,900亿元(2026年6月)[21285] |
| 2025年营收 | 16.44亿元,同比+121.26% [21335] |
| 2025年净利润 | -7.89亿元(亏损收窄43.97%)[21335] |
| 2026年Q1营收 | 5.62亿元,同比+75.6% [21339] |
| 研发投入 | 2025年全年10.27亿元,占营收62.49% [21336] |
| 员工 | 研发人员675人,占比73% [21336] |
| IPO募资 | 约42亿元 [21088] |
数据来源:[21088]
架构师评注:沐曦是国产GPU赛道中最具”AMD基因”的公司。创始人陈维良、CTO彭莉、软件CTO杨建组成的”AMD铁三角”在业界堪称豪华——三人在AMD合计拥有超过50年的GPU全流程研发经验,曾在AMD主导15款高性能GPU的流片与量产[21054]。这种”整建制”团队背景意味着沐曦不是从零摸索GPU架构,而是将AMD已验证的工程方法论直接平移到了中国。某种意义上,沐曦的路线是”把AMD的GPU设计know-how在中国重新做一遍”——但恰逢实体清单后AMD无法继续技术输出,沐曦必须自力更生。
沐曦的创始团队被称为”AMD铁三角”,是国产GPU赛道中最具辨识度的技术团队之一[21071]。
陈维良(创始人、董事长兼CEO):清华大学微电子学研究所硕士,在GPU领域拥有近20年团队管理、技术研发和量产经验。曾长期就职AMD,担任AMD全球GPU SoC设计总负责人、通用GPU MI产品线设计总负责人,带领团队主导并完成15款高性能GPU产品的流片和量产,包括AMD MI100等旗舰产品[21054]。陈维良是沐曦的实际控制人,通过直接持股及控制上海骄迈、上海曦骥,合计控制公司22.94%的股份表决权[21073]。
彭莉(联合创始人、CTO兼首席硬件架构师):AMD全球首位华人女科学家(Fellow),曾任AMD首席架构师,拥有超过20年高性能GPU芯片设计经验。在沐曦负责从芯片定义到流片的全流程设计,包括架构定义、逻辑和物理设计、功能验证和可测性方案[21063]。彭莉是沐曦硬件技术路线的核心灵魂人物。
杨建(联合创始人、软件首席架构师):AMD大中华地区第一位科学家(Fellow),历任AMD、海思等公司首席架构师,负责沐曦软件栈MXMACA的架构设计与生态建设[21063]。
核心团队特点:沐曦核心成员平均拥有近20年高性能GPU产品端到端研发经验,曾主导过十多款世界主流高性能GPU产品研发及量产,是国内唯一有过通用服务器GPU芯片研发及量产经验的完整团队[21052]。团队具备从40nm到5nm先进制程的完整设计经验,软硬件能力兼具[21056]。
架构师评注:沐曦团队最核心的竞争力在于”整建制”——不是零散挖人拼凑,而是将AMD内部一个完整GPU研发团队的核心骨干整体平移。这种团队配置在国产GPU创业公司中独一无二。陈维良管产品定义和商业落地,彭莉管硬件架构,杨建管软件生态——三条线各自由世界级专家带队,且三人此前在AMD已有多年的协作默契。这种”即插即用”的团队基因,解释了为什么沐曦仅用3年就完成了两款芯片一次流片成功量产[21053]。
| 时间 | 关键事件 |
|---|---|
| 2020年9月 | 沐曦集成电路在上海成立,陈维良创立[21055] |
| 2020年10月 | 在南京浦口成立第一家全资子公司[21058] |
| 2021年1月 | 完成近亿元天使轮融资[21052] |
| 2021年3月 | 完成数亿元Pre-A轮融资(红杉中国领投,真格基金跟投)[21097] |
| 2021年8月 | 完成10亿元A轮融资[21063] |
| 2022年1月 | 首款产品曦思N100交付流片[21069] |
| 2022年 | 完成Pre-B轮融资(和暄资本等入局)[21079] |
| 2023年4月 | 曦思N100正式量产[21303] |
| 2023年6月 | 曦云C500(MXC500)成功点亮,完成基础功能测试[21110] |
| 2023年 | B轮/B+轮融资(中原航港基金、广发信德、浦东资本等)[21081] |
| 2024年2月 | 曦云C500正式量产[21322] |
| 2024年8月 | 完成最后一轮融资,投后估值210.71亿元[21073] |
| 2024年12月 | 完成股改[21131] |
| 2025年6月 | 完成上市辅导,向上交所科创板提交IPO申请[21062] |
| 2025年7月 | 曦云C600回片,产品良率及测试指标良好[21250] |
| 2025年8月 | 完成首轮问询回复[21077] |
| 2025年10月 | IPO过会,拟募资39.04亿元[21100] |
| 2025年12月17日 | 科创板上市,首日暴涨692.95%,市值达3,320亿元[21295] |
| 2026年3月 | 发布上市后首份年报:2025年营收16.44亿元[21342] |
| 2026年5月 | MXC600通过国家《安全可靠测评》[21243] |
| 2026年Q2 | 曦云C600系列预计正式量产;C700预计进入流片测试阶段[21242] |
数据来源:综合整理
架构师评注:沐曦的发展节奏堪称”教科书级加速”——从成立到IPO仅5年,期间完成两款芯片量产、累计GPU销量超2.5万颗[21324]。2023-2024年的关键转折在于:曦思N100(推理芯片)在2023年量产,但随即遭遇生成式AI爆发导致传统推理需求下降;幸运的是,沐曦几乎同步推出了训推一体芯片曦云C500,精准踩中了2024年大模型算力需求爆发的窗口。这种”推理→训推一体”的产品切换能力,体现了团队对市场趋势的敏锐判断。
沐曦构建了”曦思N(推理)+ 曦云C(训推一体)+ 曦彩G(图形渲染)+ 曦索X(服务器)“四大产品序列,覆盖从云端推理到大规模训练、从科学计算到图形渲染的全场景[21061]。
| 参数 | 曦思N100 | 曦思N260 | 曦思N300(在研) |
|---|---|---|---|
| 定位 | 传统AI推理+视频处理 | 生成式AI推理 | 下一代生成式AI推理 |
| INT8算力 | 160 TOPS | 未公开 | 未公开 |
| FP16算力 | 80 TFLOPS | 未公开 | 未公开 |
| 显存 | HBM2E | 大容量显存 | 预计HBM3 |
| 视频处理 | 128路编/96路解码,支持8K | 新一代编解码 | 未公开 |
| 量产时间 | 2023年4月 | 已量产 | 在研 |
| 对标 | NVIDIA T4 | NVIDIA L20(推理性能110%-130%)[21257] | 未公开 |
数据来源:[21115]
| 参数 | 曦云C500 | 曦云C550 | 曦云C588 | 曦云C600 | 曦云C700(在研) |
|---|---|---|---|---|---|
| 制程 | 7nm | 7nm+ | 7nm+ | 国产先进工艺 | 国产先进工艺 |
| 架构 | 自研XCORE 1.0 | 自研GPU IP | 自研GPU IP | 自研GPU架构 | 新一代自研架构 |
| FP32 | 15 TFLOPS | 未公开 | 未公开 | 未公开 | 未公开 |
| FP16/BF16 | A100区间 | A100区间 | 大幅缩小与H100差距 | 未公开 | 目标对标H100 |
| FP8 | 不支持 | 不支持 | 未公开 | 1,000 TFLOPS | 支持 |
| INT8 | 未公开 | 未公开 | 未公开 | 未公开 | 支持FP4 |
| 显存 | 64GB HBM2e | 未公开 | 未公开 | 144GB HBM3e | 未公开 |
| 显存带宽 | 1.8 TB/s | 未公开 | 未公开 | 1,600-1,800 GB/s | 未公开 |
| 互联 | MetaXLink (2-64卡) | MetaXLink | MetaXLink | MetaXLink超节点 | 未公开 |
| TDP | 350W | 未公开 | 未公开 | 风冷/液冷 | 未公开 |
| 形态 | PCIe板卡 | PCIe板卡 | OAM模组 | OAM模组 | 预计OAM |
| 量产时间 | 2024年2月 | 已量产 | 已量产 | 2025年底风险量产,2026H1正式量产 | 2026H2流片 |
| 性能对标 | A100的75-92% | A100 | 接近H100 | A100-H100之间 | 目标超越H100 |
| 供应链 | 台积电 | 台积电 | 台积电 | 全国产供应链 | 全国产供应链 |
数据来源:[21105]
架构师评注:C500的FP32算力约15 TFLOPS,是A100(19.5 TFLOPS)的约77%,但OAM版本可达92%[21198]。C500的显存带宽1.8 TB/s与A100的1.935 TB/s差距很小,说明沐曦在HBM PHY和内存控制器设计上功力扎实[21121]。C600是真正的分水岭产品——首次实现全国产供应链闭环,这在国产GPU中具有里程碑意义[21243]。C600搭载144GB HBM3e(超过H100的80GB),FP8算力达1,000 TFLOPS,大显存对大模型推理和训练非常友好[21200]。C700定位”超越H100”,预计2026年下半年流片,若成功将进一步缩小与国际旗舰的差距[21242]。
曦彩G系列是沐曦面向图形渲染加速的解决方案,采用自主知识产权架构,内置图形处理器,主要应用于云端及边缘端图形处理,可覆盖元宇宙、云桌面、云游戏、云手机、数字孪生、XR等场景[21105]。曦彩G100 GPU IP的设计和验证工作已完成,但尚未见独立量产时间表[21296]。面向消费级市场的游戏显卡仍处于规划阶段。
曦索X206、X302是沐曦的GPU服务器产品线,搭载曦云C系列GPU,面向智算中心和通用计算场景[21245]。
(1)自研指令集+兼容CUDA的”双轨”架构
沐曦产品采用完全自主研发的GPU IP、指令集和架构(XCORE 1.0),而非基于第三方IP授权。其核心技术特点是”自主指令集+兼容CUDA生态”的双轨策略——底层指令集完全自主,但通过MXMACA软件栈在API层面实现对CUDA的高度兼容[21144]。
(2)可重构GPU架构
沐曦GPU采用原创专利保护的可重构GPU架构,通过数据压缩、数据广播以及共享硬件加速单元等技术,突破传统GPU芯片能效瓶颈,优化核心算力能耗比[21113]。
(3)MetaXLink高速卡间互联
自研MetaXLink互连技术支持2卡至64卡多种互连拓扑,是国内稀缺的高带宽卡间互连能力,可实现单机8卡GPU全互联[21107]。在智算集群的线性度、稳定性、利用率等方面表现较强[21151]。
(4)全精度混合计算
从C500的FP32/FP16/BF16/INT8到C600的FP8,再到C700规划的FP4,沐曦逐步扩展对低精度计算的支持,紧跟大模型训练和推理的精度演进趋势[21253]。
(5)虚拟化与多租户
支持最小1%颗粒度的软切分虚拟化技术,便于云服务商的多租户GPU资源调度[21201]。
MXMACA(MetaX Advanced Computing Architecture)是沐曦自研的统一异构计算平台,核心价值在于”低迁移成本”。据披露,一个中等复杂度CUDA应用的迁移成本仅需1人天[21149]。
生态兼容性关键指标(截至2025年7月)[21153]:
MXMACA采取”自主可控+开放兼容”双轨并行战略,提供从应用开发、功能调试到性能调优的全栈式工具链[21145]。在推理场景,MXMACA针对主流大模型深度优化,降低延迟并提升吞吐;在训练场景,分布式训练展现出优异线性度,可长周期无故障稳定运行[21158]。
架构师评注:沐曦的软件策略是”实用主义优先”——不追求重新定义编程模型,而是在CUDA生态上做最彻底的兼容。MXMACA本质上是”自研ISA + CUDA兼容API”的架构,编译器前端接受CUDA代码,后端映射到自研指令集。这种策略的短期优势是客户迁移成本极低,但长期风险在于:随着CUDA持续演进(如PTX指令集更新、新特性引入),MXMACA需要持续追兼容,追得越紧越累。不过,在当前国产替代窗口期,这种”先兼容、后自主”的路线确实是最务实的。
沐曦的收入高度集中于曦云C500系列。2024年,曦云C500系列收入7.22亿元,占主营收入97.28%;2025年Q1,该比例进一步升至97.87%[21132]。2025年全年,GPU产品及配件收入16.31亿元,占比99.19%[21309]。
沐曦的客户集中度较高,前五大客户贡献超七成收入[21169]。
| 客户 | 合作内容 | 订单规模 |
|---|---|---|
| 超讯通信 | 行业总代理商,采购”元醒曦云C500-P”训推一体服务器 | 14.88亿元订单,2024-2025年累计进货8,841颗GPU[21170] |
| 新华三 | GPU板卡采购 | 大额订单(具体金额未公开)[21164] |
| 联想 | DeepSeek一体机(搭载曦思N260/曦云C500) | 首月发货超千台[21265] |
| 汇天网络科技 | 算力基础设施 | 单笔超7,500万元[21169] |
| 国家AI公共算力平台 | 智算集群部署 | 9大国家级智算集群[21167] |
| 运营商智算平台 | 运营商智算中心 | 已规模化应用[21324] |
| 中科院 | 千卡集群大模型训练 | 已完成多个大模型全参数训练[21240] |
数据来源:综合整理
超讯通信是沐曦最核心的合作伙伴。双方不仅签署了行业总代理协议,还通过共同参股中能建智慧科技(超讯持股10%、沐曦持股8%)和四川讯曦智能科技(超讯持股56%、沐曦持股18%)实现了深度绑定[21168]。这种”总代+合资”的模式在国产GPU销售中较为独特。
截至2025年3月底,GPU产品累计销量超2.5万颗[21324]。截至2024年底,已在中国部署9个算力集群,商业化运行GPU数量超10,000颗[21087]。2025年全年GPU产品及配件收入16.31亿元,按照ASP约6-8万元/颗估算,2025年出货量约2-3万颗级别。
| 指标 | 2022年 | 2023年 | 2024年 | 2025年 | 2026年Q1 |
|---|---|---|---|---|---|
| 营业收入 | 42.64万元 | 5,302万元 | 7.43亿元 | 16.44亿元 | 5.62亿元 |
| 同比增速 | - | ~12,335% | ~1,300% | +121.26% | +75.6% |
| 归母净利润 | -7.8亿元 | -8.7亿元 | -14.09亿元 | -7.89亿元 | 亏损收窄 |
| 综合毛利率 | 24.10% | 62.88% | 53.43% | 56.51% | ~55% |
| 研发费用 | - | - | ~9.0亿元 | 10.27亿元 | - |
| 研发费用率 | - | - | ~121% | 62.49% | - |
数据来源:[21127]
| 轮次 | 时间 | 金额 | 主要投资方 | 估值 |
|---|---|---|---|---|
| 天使轮 | 2021年1月 | 近亿元 | 和利资本、天津泰达 | - |
| Pre-A轮 | 2021年3月 | 数亿元 | 红杉中国(领投)、真格基金 | 11.5亿元 |
| A轮 | 2021年8月 | 10亿元 | 未完全公开 | - |
| Pre-B轮 | 2022年 | 约10亿元 | 和暄资本、混沌投资、央视融媒体产业基金等 | 80+亿元 |
| B轮/B+轮 | 2023-2024年 | 数十亿元 | 中原航港基金、广发信德、浦东资本等 | - |
| 最后一轮 | 2024年8月 | 未公开 | 浦东资本、上海科创基金、湖南国创产业投资等 | 210.71亿元 |
| IPO | 2025年12月 | 42亿元 | 公开市场 | 发行市值418.74亿元 |
数据来源:[21052]
累计亏损至IPO前约33亿元[21064]。陈维良表示”最早有望在2026年实现盈亏平衡”[21337]。
架构师评注:沐曦的估值(3,000亿元级别)与其营收(16.44亿元)之间存在巨大鸿沟,PS约180倍。这个估值隐含的假设是:沐曦将在2026-2028年实现50-100亿元级别营收,并在国产GPU替代浪潮中占据20-30%的市场份额。目前市场定价更多反映的是”国产替代叙事”而非当期基本面。C600的成功量产和C700的流片进展,将是验证这一估值的关键。
(1)顶级整建制团队:AMD”铁三角”——陈维良(产品/商业)、彭莉(硬件架构)、杨建(软件生态),三人合计拥有50+年GPU全流程经验,前AMD内部协作多年的默契非拼凑团队可比。这种”整建制”基因使得沐曦在芯片架构设计、流片工程管理、量产良率控制等方面具有明显优势——两款芯片均一次流片成功[21053]。
(2)CUDA兼容性最强:MXMACA软件栈在API层面高度兼容CUDA,CUDA项目迁移成功率超92%,中等复杂度应用迁移仅需1人天[21149]。这在国产GPU中是最激进的兼容策略,也是沐曦最大的差异化卖点。
(3)商业化落地速度最快:从2022年零收入到2025年16.44亿元,三年复合增长率超4,000%[21134]。在国产GPU四小龙中,沐曦的营收规模最大、增速最快、毛利率最高(56.51%)[21220]。
(4)全栈产品布局:推理(N系列)+ 训推(C系列)+ 图形(G系列)+ 服务器(X系列),四大产品线覆盖从云端到边缘的全场景,形成了”量产一代(C500/C550)、在研一代(C600)、规划一代(C700)“的稳定迭代节奏[21296]。
(5)率先实现国产供应链闭环:C600系列首次实现从设计、制造到封装测试的全流程国产供应链[21243]。这是国产GPU在供应链自主可控上的里程碑。
(1)收入高度依赖单一产品:曦云C500/C550系列贡献超97%营收,若C600量产不及预期,存在较大业绩风险[21190]。
(2)客户集中度高:前五大客户贡献超七成收入,超讯通信单一客户占比极大[21169]。客户集中度高于摩尔线程和天数智芯[21226]。
(3)持续亏损,现金流压力大:累计亏损超33亿元,2025年仍亏损7.89亿元,研发费用率高达62.49%[21335]。虽然亏损收窄,但盈亏平衡点尚未明确。
(4)图形渲染能力薄弱:曦彩G系列仍处于IP验证阶段,距量产和商业化还有相当距离。与摩尔线程的全功能GPU(游戏显卡+AI计算)相比,沐曦的图形能力明显滞后。
(5)互联网大厂客户突破不足:虽然已与联想合作一体机,但阿里、字节跳动、腾讯等头部互联网客户的大规模采购尚未落地。沐曦在问询函中坦承”互联网企业首选国际产品”[21206]。
(6)HBM供应受限:C500依赖HBM2e,C600/C700需要HBM3/HBM3e,国产HBM供应链仍处于早期阶段[21183]。
沐曦的供应链风险分为两个阶段:
C500系列阶段(现有主力):C500/C550/C588采用7nm工艺,依赖台积电代工和海外HBM供应。公司在招股书中明确披露”目前在先进制程晶圆代工和HBM供应等方面受到不利限制”[21183]。2019年实体清单后,台积电对中国大陆7nm及以下先进制程的供应持续收紧,这是C500系列最大的地缘政治风险。
C600系列及以后(国产供应链):C600系列已实现全国产供应链——从芯片设计到制造、封装,再到配套软件栈,全面实现国产化[21243]。C600已通过国家《安全可靠测评》(2026年第2号),可满足政企、金融、电信、能源、交通等关键行业安全标准[21243]。C700系列同样基于国产供应链,预计2026年下半年流片[21242]。
架构师评注:C600的国产供应链闭环是沐曦最值得关注的技术突破。但”国产先进工艺”的具体节点(中芯国际N+2等效7nm?还是更先进的国产工艺?)以及国产HBM3e的性能和良率,仍然是关键变量。C600的144GB HBM3e如果来自国产供应链,意味着国产HBM已取得实质性突破——这需要进一步核验。
| 维度 | 沐曦 | 对应国际厂商 |
|---|---|---|
| 团队基因 | AMD GPU团队背景 | AMD(最直接的对标) |
| 技术路线 | 自研GPGPU架构 + CUDA兼容 | AMD CDNA + ROCm生态 |
| 产品定位 | 数据中心训推一体 | NVIDIA A100/H100/H20 |
| 软件生态 | MXMACA(兼容CUDA) | NVIDIA CUDA + AMD ROCm |
| 商业模式 | GPU芯片 + 板卡 + 服务器 | NVIDIA(数据中心GPU) |
| 图形能力 | 曦彩G系列(规划中) | AMD Radeon / NVIDIA GeForce |
最直接对标:沐曦≈“中国版AMD数据中心GPU”。技术路线更接近AMD CDNA系列(GPGPU架构、ROCm兼容),但商业策略上通过MXMACA兼容CUDA生态,实际上是”AMD硬件基因 + NVIDIA软件生态”的混合路线。
产品对标:C500≈A100(75-92%性能),C600≈A100-H100之间,C700目标≈H100。
2026年:C600正式量产是核心看点。若C600成功量产并在互联网大厂获得规模化部署,全年营收有望达到35-45亿元(机构预测),实现盈亏平衡[21337]。C700流片进展决定2027-2028年的产品竞争力。
2027年:C700若成功量产并接近H100性能,将大幅缩小与国际旗舰的差距。图形GPU(曦彩G系列)能否进入商业化阶段,决定沐曦能否从”AI加速器公司”进化为”全功能GPU公司”。
2028年:国产GPU行业大概率进入整合期。沐曦能否凭借C700+C600组合在互联网大厂和智算中心市场站稳脚跟,将决定其能否成为真正的”中国AMD”。
核心风险:C600量产进度不及预期;互联网大厂客户持续观望;HBM国产供应链产能/良率受限;摩尔线程、壁仞科技等竞争对手的软件生态加速成熟。
乐观情景:C600成功量产+互联网大厂批量采购+2026年盈亏平衡+2027年C700流片成功→市值有望支撑3,000-5,000亿元区间。
悲观情景:C600量产延迟/良率不及预期+客户集中于信创市场而非互联网大厂+持续亏损→市值可能回落至1,000-1,500亿元。
架构师总评:沐曦是国产GPU赛道中最具”工程务实主义”气质的公司。它不追求”重新定义GPU”,也不试图在架构上颠覆NVIDIA,而是老老实实地把AMD验证过的GPU工程方法论在中国复现,并通过极致的CUDA兼容降低客户迁移成本。这种”现实主义”路线在国产替代窗口期是最有效的策略。但沐曦的真正考验不在于”能不能做出来”——已经做出来了——而在于”能不能从信创市场走向互联网大厂”,以及”能不能从单产品依赖走向多产品矩阵”。C600的国产供应链闭环和C700的性能突破,将是未来3年最核心的观察指标。
同上
定位:中国云端AI芯片“四小龙”之一,选择了一条与摩尔线程、壁仞截然不同的DSA(领域专用架构)路线,不做“国产英伟达”——而是做“中国AI算力的基础设施公司”。
核心判断:燧原科技是国产AI芯片中最“特立独行”的一家——当同行争相兼容CUDA、走GPGPU路线时,燧原从第一天起就选择了自研指令集+自研架构+自研软件栈的“全栈自研”之路。这种“拒绝模仿”的底层自信来源于赵立东-张亚林这对“AMD双子星”的技术信仰,也来源于腾讯连续6轮投资的战略背书。然而,燧原的“独立”在商业上付出了巨大代价——客户高度依赖腾讯(2025年83.79%营收来自腾讯),毛利率被压至30%左右,且开发者迁移成本极高。燧原的真正价值不在于“追平NVIDIA”,而在于它可能是中国唯一一个真正跑通了“自研DSA架构→云端AI芯片大规模商用→万卡集群→科创板IPO”全链路的独立AI芯片公司。2026年6月科创板过会,标志着“国产GPU四小龙”全部进入资本市场,但燧原的“腾讯依赖症”能否在上市后缓解,是投资者最关心的问题。
上海燧原科技股份有限公司(Enflame Technology Co., Ltd.)成立于2018年3月,总部位于上海,在北京设有全资子公司 [21380]。公司专注于 云端AI芯片 领域,定位为”通用人工智能基础设施领军企业”,采用Fabless模式,提供从芯片、加速卡、智算集群到软件平台的全栈解决方案 [21384]。
燧原科技是”国产GPU四小龙”(摩尔线程、壁仞科技、燧原科技、沐曦)中 唯一一家明确不走GPGPU路线的公司——公司多次公开强调”准确来讲燧原是一家AI芯片公司,聚焦云端AI芯片的设计研发,采用的非GPGPU架构” [21545]。这一技术路线选择使其在国内AI芯片赛道中形成了独特的差异化定位,但也带来了生态兼容性和客户拓展方面的特殊挑战。
公司名称”燧原”取自”点燃星燧不知火,汇聚燎原之势”——这个充满野心的名字,反映了创始团队对中国AI算力自主可控的愿景 [21564]。
燧原科技的创始团队被称为”AMD双子星”——赵立东和张亚林这对在AMD共事多年的老搭档,带着深厚的”硅谷基因”和技术信仰创业 [21552]。
| 角色 | 姓名 | 背景 |
|---|---|---|
| 创始人/董事长/CEO | 赵立东(ZHAO LIDONG) | 清华大学电子工程学士,美国犹他州立大学电子与计算机硕士。在硅谷工作超过20年。2007-2014年服务于AMD,历任计算事业部高级总监(负责CPU/APU产品规划)、产品工程部高级总监(负责CPU/GPU/APU及核心IP研发,团队规模超千人,参与成立中国研发中心)。此前还曾服务于Juniper Networks(网络安全芯片)和S3 Inc.(GPU图形处理器芯片研发,S3是英伟达早期的竞争对手)。2014年底加入紫光集团任副总裁,主管半导体投资,兼任锐迪科微电子总裁。2018年3月辞职创立燧原科技 [21378] |
| 创始人/COO | 张亚林 | 2008年加入AMD,历任资深芯片经理、技术总监。作为全球芯片研发主要负责人之一,在AMD上海研发中心成功领导开发并量产了多颗世界级芯片,包括AMD旗舰APU/GPU产品,拥有丰富的工程和产品化实战经验。加入AMD时赵立东是其直属老板——赵立东负责团队构建和项目争取,张亚林负责执行芯片项目 [21550]。2023年获上海市科学技术奖青年科技杰出贡献奖 [21561] |
赵立东和张亚林的关系,堪称国产AI芯片创业圈最经典的”师徒档”——赵立东是”帅才”(战略+融资+业务),张亚林是”将才”(产品+研发+运营)。两人在AMD共事期间建立了深厚的信任,而赵立东在紫光集团主管半导体投资的经历,又为他积累了丰富的产业资本人脉。据LinkedIn数据,燧原至少有二十多名主管曾在AMD工作过 [21381],整个公司带有浓厚的”AMD基因”。
团队评价:赵立东的履历有三个独特之处——①在S3 Inc.做过GPU图形芯片(与早期英伟达竞争),②在AMD管过千人规模的CPU/GPU/APU研发团队,③在紫光集团做过半导体投资。这种”研发+管理+投资”的复合背景,在国产AI芯片创始人中极为罕见。张亚林则代表了”工程落地能力”——从AMD上海研发中心到燧原,他主导了每一代芯片的量产。两人的组合,在技术信仰和商业落地之间找到了一个微妙的平衡点。
创始人合计直接+间接控制公司28.1357%的表决权,为共同实际控制人 [21559]。腾讯科技持有19.9493%,为第一大外部股东,腾讯系(含一致行动人苏州湃益)合计持股20.258% [21465]。
| 时间 | 里程碑 |
|---|---|
| 2018年3月 | 公司成立,赵立东与张亚林联合创立,总部位于上海 [21380] |
| 2019年12月 | 首款AI训练芯片 邃思1.0(DTU)发布,从项目启动到发布仅用18个月,一次性流片成功。基于邃思1.0的云燧T10训练加速卡FP32算力20 TFLOPS,云燧i10推理卡同步推出 [21363] |
| 2020年5月 | B轮融资7亿元,武岳峰资本领投,腾讯跟投(此时腾讯已投3轮)[21433] |
| 2021年7月 | 第二代训练产品 邃思2.0 发布,中国最大AI计算芯片(57.5mm×57.5mm,面积3306mm²),采用格芯12nm+日月光2.5D封装,FP32 40 TFLOPS,TF32 160 TFLOPS,INT8 320 TOPS,国内率先支持TF32精度 [21374] |
| 2021年12月 | 第二代推理产品 邃思2.5 发布,云燧i20推理卡,INT8 256 TOPS,12nm媲美7nm GPU [21355] |
| 2022年9月 | 发布云燧智算机(CloudBlazer Pod),典型配置每单元8 PFLOPS TF32算力,支持数千卡规模集群,突破E级算力 [21362] |
| 2023年 | 推出文生图MaaS平台”燧原曜图”,以自研邃思芯片为算力支撑 [21419] |
| 2024年 | 第三代芯片 邃思320 发布,对应推理加速卡 燧原S60。同年12月,甘肃庆阳建成国内首个国产万卡推理集群(10016张S60卡)[21588] |
| 2024年8月 | 启动IPO辅导,辅导机构中金公司 [21401] |
| 2024年12月 | E轮融资完成,投后估值约202亿元 [21399] |
| 2025年7月 | 第四代训推一体芯片 邃思400 发布,对应 燧原L600 训推一体加速模组,144GB存储容量,3.6TB/s存储带宽,800GB/s互联带宽,国内首创原生FP8支持,性能对标NVIDIA H20 [21473] |
| 2025年10月 | IPO辅导机构由中金公司变更为中信证券 [21381] |
| 2025年全年 | 营收9.90亿元,AI加速卡及模组销售量6.6万张,中国AI加速卡市场份额约1.7% [21456] |
| 2026年1月 | 科创板IPO获受理,拟募资60亿元,为2026年A股首单IPO [21401] |
| 2026年6月 | 科创板IPO过会,上市委审议通过,“国产GPU四小龙”全部会师资本市场 [21432] |
从研发节奏看,燧原的迭代速度可圈可点:第一代芯片18个月完成(业内罕见),此后保持约2年一代架构的节奏,四代架构五代芯片,覆盖训练和推理两条产品线。但值得注意的是,前三代产品均采用格芯12nm工艺——这既是供应链安全的策略选择,也反映了先进制程获取受限的现实。
燧原科技构建了”芯片+板卡+集群+软件”的四层产品体系:
| 产品层级 | 系列 | 代表产品 | 说明 |
|---|---|---|---|
| 芯片 | 邃思(DTU) | 邃思1.0 → 邃思2.0/2.5 → 邃思320 → 邃思400 | 四代架构五款芯片 |
| 训练加速卡 | 云燧T系列 | T10/T11(1代)→ T20/T21(2代) | 面向云端AI训练 |
| 推理加速卡 | 云燧S/i系列 | i10(1代)→ i20(2代)→ S60(3代) | 面向云端AI推理 |
| 训推一体模组 | 燧原L系列 | L600(4代) | 训推一体,对标H20 |
| 智算集群 | CloudBlazer | CloudBlazer Matrix 2.0(8192卡,1.3E算力) | 最高支持E级算力集群 |
| 软件平台 | 驭算TopsRider | 全栈AI计算及编程平台 | 自研指令集+编译器+算子库 |
核心产品关键参数:
| 产品 | 定位 | 制程 | 关键算力 | 显存 | 互联 | 状态 |
|---|---|---|---|---|---|---|
| 云燧T10 | 训练 | 12nm GF | FP32 20 TFLOPS | — | Smart Link | 量产(2019) |
| 云燧T20 | 训练 | 12nm GF | FP32 40 TFLOPS, TF32 160 TFLOPS | — | 6口互联 | 量产(2021) |
| 云燧i20 | 推理 | 12nm GF | INT8 256 TOPS, TF32 128 TFLOPS | 16GB HBM2e, 819GB/s | — | 量产(2021) |
| 燧原S60 | 推理 | — | — | — | — | 量产(2024),累计出货10万卡 |
| 燧原L600 | 训推一体 | — | 原生FP8 | 144GB, 3.6TB/s | 800GB/s | 发布(2025.7) |
注:邃思320(S60)和邃思400(L600)的具体制程工艺未公开披露,公开资料有限,需进一步核验。但考虑到2024年11月台积电对大陆7nm以下AI芯片的供应限制,以及燧原此前三代产品均使用格芯12nm的历史,邃思320/400的制程选择存在较大不确定性 [21608]。
燧原科技的技术路线可以用一句话概括:“不跟随英伟达GPGPU,自研DSA架构+全栈软件”。
燧原的核心技术底座是其自研的 GCU-CARA(通用计算单元和全域计算架构,General Compute Unit - Comprehensive Architecture),这是一个完全自主知识产权的领域专用架构(DSA)[21536]。
该架构的核心理念是:不为通用计算妥协,只做AI加速的最优解。具体包括:
架构师视角:DSA路线在AI推理场景中的优势非常明显——专用硬件可以针对Transformer等特定模型做极致优化,在同等制程下实现更高的能效比。这也是为什么燧原能用12nm做出”媲美7nm GPU”性能的底气所在。但DSA的代价是”通用性”——当模型架构发生变化(如从CNN到Transformer再到SSM),DSA需要重新适配,而GPGPU天然具备灵活性。
2025年7月发布的L600是燧原第四代产品,定位为 训推一体 AI芯片,是国内首款原生支持FP8低精度计算的AI芯片 [21473]。其核心亮点:
值得注意的是,L600的144GB显存容量在国产AI芯片中属于第一梯队水平,与华为昇腾910C的128GB HBM处于同一量级。但燧原未公开L600的显存类型(HBM2e还是HBM3),以及FP16/BF16的具体算力指标,这些关键参数尚待进一步披露。
燧原前三代产品均采用 格芯12nm FinFET 工艺,这是一个值得深入分析的技术决策 [21355]。在业界普遍追逐7nm/5nm的背景下,燧原选择”成熟制程+架构创新”的路线,核心逻辑是:
但这也意味着,当NVIDIA在4nm/3nm上持续迭代时,燧原仅靠架构优化来追赶的难度会越来越大。制程差距的”天花板效应”将在未来2-3代产品中愈发明显。
燧原的软件生态是其DSA路线最大的”双刃剑”——一方面,自研全栈软件带来了完全自主可控的优势;另一方面,不兼容CUDA意味着极高的开发者迁移成本。
驭算TopsRider是燧原自主知识产权的计算及编程平台,通过软硬件协同架构设计,充分发挥邃思芯片的性能 [21416]。其技术栈包括:
燧原已完成对 DeepSeek全量模型 的高效适配,包括DeepSeek-R1/V3 671B原生模型及多个蒸馏模型 [21539]。在DeepSeek-R1推理场景中,燧原与清程极智合作开发的推理平台,可在不同场景下实现最高10倍的吞吐量提升,实测并发量是vLLM等开源框架的4倍 [21641]。
燧原S60还与百度飞桨完成大模型推理I级兼容性测试,成为国内首家完成适配认证的芯片厂商 [21630]。
燧原的DSA路线最核心的挑战是 不兼容CUDA。开发者使用燧原芯片需要迁移到其自有的软件栈上,迁移成本极高 [21495]。这直接解释了为什么燧原如此依赖腾讯——只有像腾讯这样有能力深度定制底层软件的超大型客户,才愿意配合进行大规模适配与部署。
燧原的软件生态策略可以理解为:“不是让所有人用,而是让最需要的人用得好”。在推理侧,对CUDA生态的依赖相对训练侧更低,成本、能效和部署效率的重要性更高,这为燧原的DSA路线提供了切入窗口 [21541]。
燧原科技的营收主要来自两大业务板块 [21462]:
| 业务板块 | 2025年1-9月营收 | 占比 |
|---|---|---|
| AI加速卡及模组 | 4.1亿元 | 76.73% |
| 智算系统及集群 | 1.23亿元 | 23.03% |
燧原科技与腾讯的关系是理解其商业模式的 核心密码。腾讯不仅是第一大外部股东(持股19.95%),更是第一大客户 [21460]:
| 期间 | 腾讯相关营收占比 | 说明 |
|---|---|---|
| 2023年 | 33.34% | 直接销售+AVAP模式 |
| 2024年 | 37.77% | 直接销售+AVAP模式 |
| 2025年 | 83.79% | 急剧上升,含直接销售+AVAP模式 |
| 2025年Q1-Q3 | 71.84% | 其中对腾讯科技直接销售超过50% |
注:AVAP模式指燧原通过腾讯指定的服务器厂商(如弘信电子等)间接销售产品。
前五大客户集中度极高:2022-2024年及2025年前三季度,前五大客户销售占比分别达94.97%、96.5%、92.6%和96.41% [21494]。
正面影响:
负面影响:
燧原在智算中心领域的落地进展是国产AI芯片中最突出的之一:
| 智算中心 | 规模 | 时间 | 说明 |
|---|---|---|---|
| 甘肃庆阳万卡推理集群 | 10016张S60卡 | 2024年12月 | 中国首个国产万卡推理集群,投资3.07亿元 [21588] |
| 无锡太湖亿芯智算中心 | — | 2025年 | 聚焦AIGC、生物医药、智能制造 [21597] |
| 成渝智算中心 | — | 2024年 | 四川并济科技投建,燧原提供算力底座 [21594] |
| 之江实验室联合研究中心 | — | 2021年 | 燧原-之江人工智能芯片联合研究中心 [21594] |
S60推理加速卡截至2025年底累计出货约10万卡,覆盖国内五大智算集群 [21628]。2025年全年AI加速卡及模组销售量6.6万张 [21633]。
| 指标 | 2022年 | 2023年 | 2024年 | 2025年 | 2026年Q1 |
|---|---|---|---|---|---|
| 营业收入 | 0.90亿 | 3.01亿 | 7.22亿 | 9.90亿 | 2.87亿 |
| 营收增速 | — | +234% | +140% | +37% | +1475% YoY |
| 归母净利润 | -11.16亿 | -16.65亿 | -15.10亿 | -11.64亿 | — |
| 研发费用 | 9.88亿 | 12.29亿 | 13.12亿 | — | — |
| 研发费用率 | 1096% | 408% | 182% | — | — |
数据来源:[21456]
2022-2024年营收复合增长率183.15% [21458]。2023-2025年三年复合增长率81.32% [21459]。截至2025年9月末,累计未弥补亏损-41.65亿元(合并口径)[21454]。
公司预计2026年上半年营收10.6-11.5亿元,同比增长258.68%-289.13%,有望追平2025年全年水平。公司预计最早2026年实现盈亏平衡 [21459]。
| 轮次 | 时间 | 主要事件 |
|---|---|---|
| 天使轮 | 2018年 | 上海科创投集团等国资LP参与 [21587] |
| Pre-A~A轮 | 2019年 | 腾讯开始参与投资 |
| B轮 | 2020年5月 | 融资7亿元,武岳峰资本领投,腾讯跟投 [21433] |
| 多轮后续 | 2020-2024年 | 腾讯连续投资6轮,累计近70亿元融资 [21406] |
| E轮 | 2024年12月 | 投后估值约202亿元 [21399] |
| 时间 | 估值 | 来源 |
|---|---|---|
| 2024年(胡润全球独角兽榜) | 160亿元 | 胡润研究院 [21404] |
| 2024年12月(E轮) | 约202亿元(投后) | 招股书 [21399] |
| 2025年(胡润全球独角兽榜) | 205亿元 | 胡润研究院 [21405] |
更换辅导机构从”中金”到”中信”仅3个月即叩响科创板大门,这个速度在国产芯片IPO中相当罕见,侧面反映了燧原在监管层面的推进力度。
募资用途:60亿元拟用于第五代和第六代AI芯片系列产品的研发和产业化、先进人工智能软硬件协同创新项目等 [21401]。
| 风险维度 | 具体情况 | 严重程度 |
|---|---|---|
| 晶圆代工 | 前三代使用格芯12nm(不受美国出口管制直接影响);第四代制程未公开。若第三代/第四代使用台积电7nm,则面临2024年11月后美国对华7nm AI芯片供应限制风险 [21608] | ⚠️ 高 |
| 先进封装 | 邃思2.0使用日月光2.5D封装,依赖中国台湾供应链 [21374] | ⚠️ 中 |
| HBM显存 | L600配备144GB大容量显存,若使用HBM2e/HBM3,则依赖三星/SK海力士供应,受美国对华HBM出口管制影响 [21523] | ⚠️ 高 |
| EDA工具 | 作为Fabless设计公司,依赖Synopsys/Cadence等美国EDA厂商,存在被限制风险 | ⚠️ 中 |
| 实体清单 | 目前燧原本体未被列入实体清单(公开信息),但其代工供应链可能因美国对华半导体管制新规而受限 | ⚠️ 中 |
燧原在招股书中明确披露了”国际贸易摩擦可能产生的供应链风险”,包括晶圆代工、存储IDM、封装测试等环节的采购受限风险 [21514]。
| 对比维度 | 燧原科技 | NVIDIA | AMD | Intel |
|---|---|---|---|---|
| 架构路线 | DSA(GCU-CARA) | CUDA GPU(通用) | CDNA(计算)/RDNA(图形) | Xe(GPU)/Gaudi(AI) |
| 最接近对标 | NVIDIA Tensor Core + NVLink(功能层面) | — | AMD CDNA | Intel Gaudi(DSA推理) |
| 训练芯片 | L600(对标H20) | H100/H200/B200 | MI300X | Gaudi 3 |
| 推理芯片 | S60 | L40S/L4 | — | — |
| 软件栈 | 驭算TopsRider(自研) | CUDA | ROCm | oneAPI |
| CUDA兼容 | 否 | 原生 | 部分兼容(HIP) | 部分兼容 |
| 团队渊源 | 赵立东/张亚林曾任职AMD(2007-2014/2008-2019) | — | 核心团队来自AMD | — |
燧原的DNA与AMD渊源最深(两位创始人均来自AMD),但其技术路线选择——DSA架构——却又与AMD的GPGPU路线走上分岔。这或许反映了创始团队在AMD期间对”通用GPU在AI场景中的效率损失”有深刻理解后做出的战略选择。
2026-2028年核心判断:
IPO红利期(2026-2027):60亿元募资到位将支撑第五/六代芯片研发,短期内资金充裕。但上市后市场将重点关注腾讯依赖度下降的速度和毛利率改善的幅度。
腾讯依赖”减毒”是关键:如果燧原能在2027年前将腾讯营收占比降至50%以下,并成功拓展2-3家运营商或大型互联网客户,估值逻辑将发生质变。否则”腾讯影子股”的标签将长期压制估值。
L600的市场验证:L600是燧原从”推理为主”向”训推一体”转型的关键产品。如果L600能在万卡训练集群中证明稳定性(对标NVIDIA H20的实际表现),将打开训练市场的新空间;反之,如果L600仅停留在推理场景,估值天花板将受限。
制程升级是硬挑战:前三代产品的12nm工艺已接近天花板,第五/六代芯片必须向更先进制程(7nm及以下)演进。在台积电受限、中芯国际先进制程产能有限的背景下,制程选择将直接影响性能竞争力。
竞争格局恶化风险:摩尔线程(MUSA+全功能GPU)、壁仞(GPGPU+大算力)、华为昇腾(全栈自主+政企市场)都在加速布局,燧原的DSA路线在”推理”场景的比较优势可能被蚕食。
并购可能性:如果腾讯依赖度持续高企而独立获客能力不足,不排除腾讯进一步增持甚至收购燧原的可能性。但考虑到燧原IPO后的公众公司身份,这种概率在短期内较低。
核心评级:燧原科技是国产AI芯片中 “技术最独立、商业最依赖” 的矛盾体。其DSA全栈自研路线代表了”长期主义”的技术信仰,但腾讯依赖症和CUDA生态壁垒又构成短期商业化的核心约束。未来3年,燧原能否在”保持技术独立性”和”扩大商业独立性”之间找到平衡,将决定其是成为”中国版Google TPU”还是”腾讯AI芯片子公司”。
同上
砺算科技是国产GPU赛道上 最特殊、也最令人揪心的存在。当所有国产GPU公司都在AI训练/推理的算力狂潮中奔跑时,它选择了一条最艰难、最孤独的路径——从零开始,做一颗真正的、全自研的图形渲染GPU(TrueGPU)。它不买IP、不绕道GPGPU、不以AI之名起家,而是直接对标NVIDIA GeForce消费级显卡,试图正面硬刚这个被巨头垄断了数十年的市场。它的技术血统来自S3 Graphics——一家比NVIDIA更早的GPU先驱;它的产品在2026年拿到了 全球第四、中国第一的微软WHQL认证;但与此同时,它也是资金链最脆弱、商业化最滞后、团队最动荡的公司——累计亏损超5亿元、营收近乎为零、两度欠薪。它是中国GPU产业的一颗“火种”,但这颗火种正于寒风中摇曳。
理解砺算科技,必须从它的团队血液入手。这条血脉链堪称中国GPU产业最完整的“技术传承图谱”:
S3 Graphics(1989-2011)→ VIA/兆芯(2013-2018)→ 中天恒星(2018-2021)→ 砺算科技(2021-至今)
砺算的三位联合创始人——联席CEO宣以方(中国台湾籍)、联席CEO孔德海(美国籍)、CTO牛一心(美国籍)——均来自S3 Graphics,这家成立于1989年的公司,比NVIDIA(1993年)早了整整4年,在1990年代曾是全球GPU市场的“初代霸主”[21672]。S3的Trio图形芯片年销2000万颗,ViRGE是全球第一代3D加速GPU芯片,累计销量超过1亿颗[21802]。
三位创始人的履历,在国产GPU赛道中堪称“顶配”:
| 创始人 | 角色 | 关键履历 |
|---|---|---|
| 宣以方 | 联席CEO | 台湾交通大学毕业,1992年S3 GPU创始团队成员、研发部副总裁,领导量产15代GPU芯片,近30年GPU全流程经验[21803] |
| 孔德海 | 联席CEO | 清华大学无线电系84级,中国第一代超大规模集成电路(VLSI)设计师,1992年起从事GPU研发,硅谷20+年芯片设计/管理/投资经验,曾参与创立三个硅谷天使基金[21803] |
| 牛一心 | CTO | 1994年加入S3,首个S3D引擎研发者,全球第一代3D加速GPU ViRGE负责人,18年GPU研发副总经理,带领硬件设计支持DirectX/OpenGL/OpenCL全部标准[21683] |
团队平均从业超过18年,拥有15代以上GPU迭代量产经验[21808]。这种“老炮”级团队配置,在国产GPU创业公司中绝无仅有——摩尔线程的核心来自NVIDIA中国区,壁仞的核心来自华为海思和AMD,沐曦的核心来自AMD,而砺算的团队来自比NVIDIA更早的GPU先驱。
🤔 业内有一个流传甚广的梗:S3 Graphics堪称中国GPU产业的“黄埔军校”。华为海思GPU笛卡尔团队的洪州、壁仞科技和沐曦的核心成员,都直接或间接继承了S3的技术积累。换句话说,今天中国GPU赛道的半壁江山,都能追溯到S3这条血脉[21819]。
但这段传承也暗藏裂痕。2018年,S3元老黄永、宣以方、牛一心、孔德海等人从兆芯出走,创立了 中天恒星。2021年上半年,中天恒星爆发资金问题,欠薪裁员,宣以方、牛一心、孔德海等人带领部分员工再次出走,成立了砺算科技[21668]。这意味着,砺算的核心团队在短短三年内经历了 两次创业失败,团队凝聚力和心理韧性都承受了巨大考验。
砺算科技的产品定位极为清晰且独特:它做的是图形渲染GPU(TrueGPU),而非GPGPU或AI专用加速器[21675]。这在国产GPU赛道中几乎是独一份的存在。
关键区别在于:
这意味着砺算走了一条 最难但最正统 的路:它必须同时攻克图形渲染管线(Graphics Pipeline)的所有技术难点——几何处理、光栅化、纹理映射、像素着色、显示输出,以及完整的DirectX/Vulkan/OpenGL驱动栈。这是NVIDIA花了几十年才建立起来的护城河。
2025年7月26日,砺算正式发布首款GPU芯片“7G100”系列(谐音“奇迹”),搭载自研TrueGPU天图架构[21751]。
| 参数 | 7G106(消费级) | 7G105(专业级) |
|---|---|---|
| 制程 | TSMC N6 (6nm DUV) | TSMC N6 (6nm DUV) |
| 显存 | 12GB GDDR6 | 24GB ECC |
| 显存位宽 | 192-bit | 192-bit |
| 纹理单元 (TMUs) | 192 | 192 |
| 光栅单元 (ROPs) | 96 | 96 |
| FP32算力 | 24 TFLOPS | 24 TFLOPS |
| TDP | ~225W | — |
| 接口 | PCIe 4.0 x16 | PCIe 4.0 x16 |
| 显示输出 | 4×DP 1.4 (无HDMI) | 4×DP 1.4 |
| 图形API | DX12, Vulkan 1.3, OpenGL 4.6 | 同左 |
| 计算API | OpenCL 3.0 | 同左 |
| 光线追踪 | ❌ 不支持 | ❌ 不支持 |
| 视频编解码 | AV1/HEVC 8K60解码, 4K30编码 | 同左 |
| 虚拟化 | SR-IOV (最多16容器) | 同左 |
| 售价 | ¥3,299 (~$485) | 未公开 |
来源:[21704]
7G100的实测表现呈现出 “跑分与游戏体验严重脱节” 的典型早期GPU特征:
合成基准测试(亮眼):
游戏实测(骨感):
资深架构师点评:Geekbench OpenCL跑分是纯计算吞吐量测试,对图形渲染管线几乎不涉及。7G100在合成测试中超越RTX 4060、在游戏实测中跌回RTX 3060水平,说明其 Shader核心计算能力尚可,但图形固定功能单元(光栅化、纹理、ROP)以及驱动层面的游戏优化远未成熟。这是所有自研GPU的必经之路——NVIDIA的驱动优化也是几十年的积累。
砺算在发布会上展示了7G100运行DeepSeek大模型和剪映软件的能力[21744]。7G100支持INT8整数运算,具备一定的AI推理能力[21767]。但需要明确指出:7G100的AI能力更多是“有”而非“优”,其24 TFLOPS的FP32算力换算为FP16约为48 TFLOPS,在AI训练场景中完全不具竞争力。其“渲推一体GPU”的定位,更多是面向 云渲染、云桌面、AIGC轻量推理 等场景,而非严肃的AI训练或大规模推理。
2026年2月,砺算科技正式通过微软Windows硬件质量实验室(WHQL)认证,成为 全球第四家、中国第一家 获此认证的GPU厂商,仅次于NVIDIA、AMD、Intel[21840]。
WHQL认证的含金量不容低估:
这是国产GPU在 软件工程化和Windows生态兼容性 上取得的最具标志性的突破。对比摩尔线程多年努力仍未拿到WHQL认证,砺算的这一步具有里程碑意义。
砺算7G100支持:
来源:[21704]
在引擎层面,砺算已跑通UE5、Unity、Blender Cycles、DaVinci Resolve等主流引擎/软件的演示[21821]。专业卡适配优化了50余款专业应用,兼容AutoCAD、Solidworks、Blender、Maya等主流CAD/3D建模软件,支持Intel、AMD、海光、鲲鹏、飞腾、兆芯、龙芯等国内外CPU以及Windows、麒麟、UOS、Ubuntu等操作系统[21797]。
砺算官方在专家交流中坦承:“没有三五代产品,很难和英伟达掰手腕”[21781]。这个判断非常清醒。当前7G100的软件生态处于“能用”阶段,距离“好用”还有显著差距:
2026年5月20日,砺算LX 7G100创始版在京东平台首发,首批3万+张显卡48小时内售罄,按¥3,299的MSRP计算,预售收入超过1,455万美元(约1亿人民币)[21688]。创始版限量1000张,每张由联席CEO宣以方亲笔签名编号[21688]。砺算在京东显卡品牌排名中一举跃升至第六位,仅次于华硕、七彩虹、技嘉、微星等国际大厂[21688]。
2026年6月18日,LX Pro(专业工程应用)和LX Ultra(云计算)正式上市,同时创始版补货[21688]。
然而,销售火爆的背后是令人窒息的财务数据:
| 指标 | 2023年 | 2024年 | 2025年 | 2025年1-7月 |
|---|---|---|---|---|
| 营业收入 | 0 | 0 | 2.48万元 | 0 |
| 净亏损 | ~1.5亿元 | ~2.1亿元 | 4.45亿元 | ~1.5亿元 |
来源:[21712]
累计亏损约5.1亿元,而2025年全年营收仅2.48万元——这几乎等于零[21712]。2025年9月量产后,首批显卡交付要到2026年才产生实质收入,因此2025年财报几乎为零营收。
东芯股份(688110.SH)作为砺算第一大股东(持股35.87%),2025年确认对砺算的投资亏损约 1.66亿元,成为东芯2025年净亏损扩大的主要原因之一[21963]。东芯股份2025年预计归母净亏损1.74-2.14亿元,存储主业已实现盈利,GPU投资是唯一的“出血点”[21958]。
| 时间 | 轮次 | 金额 | 投前估值 | 关键出资方 |
|---|---|---|---|---|
| 2022.2 | 天使轮 | 数亿元 | — | 达泰资本、将门创投、万物创投、海松资本等 |
| 2022.10 | Pre-A轮 | 过亿元 | — | 协立创投、君桐资本、活水资本、哲方资本等 |
| 2024.8 | 战略融资 | 3.28亿元 | ~2亿元 | 东芯股份(2亿元)、其他 |
| 2025.8 | 战略融资 | 5亿元 | 35亿元 | 东芯股份(2.11亿元)、亨通集团、道禾长期投资等 |
来源:[21679]
估值从2亿飙升至35亿,翻了17.5倍,而其营收几乎为零。这反映了资本市场对“国产唯一全自研图形GPU”这一标签的极度稀缺性溢价[21859]。虎嗅对此的评论一针见血:“35亿这个数字,已经把’成为国产GPU前三’的预期都算进去了。2026年如果产品卖不动,估值可能迅速回调”[21859]。
砺算已与某国内领先云计算服务商签署《战略合作框架协议》,涉及国产云桌面、AIPC、云渲染、数字孪生等领域合作,但 截至目前尚未签署实际订单,尚未产生收入[21714]。这意味着砺算当前的收入几乎全部来自消费级显卡零售,B端商业化尚未真正启动。
砺算7G100采用 台积电N6(6nm DUV) 工艺[21704]。这是目前国产GPU中一个微妙的制程选择:
相对安全的一面:
绝对脆弱的一面:
此外,砺算7G100 不支持HDMI输出,原因是HDMI Licensing的高额授权费用[21704]。这虽然是一个成本决策,但也反映出公司在成本控制上的极度紧张。
砺算的团队故事是国产GPU赛道中最令人唏嘘的。核心团队在三年内经历了两次创业失败:
一位砺算资深员工对媒体表示:“从技术和产品角度,有自信G100可以吊打市面上另一家GPU企业的产品……但目前很多人都出现了摆烂心态,随便做做就行了”[21685]。这句话道出了砺算最核心的危机:技术团队的心理防线正在瓦解。
2025年5月芯片点亮后,砺算联合创始人孔德海对《科创板日报》表示:“算是跨过了一个难关,后面流片、点亮、量产,比较可控了”[21678]。但东芯股份已明确表示 不会参与砺算的新一轮融资[21708],这意味着砺算必须寻找新的“金主”。
全自研TrueGPU架构:从指令集到计算核心完全自主,是国产GPU中唯一真正不依赖外部IP授权的图形GPU架构。这赋予了砺算在架构演进上的完全自主权,不受制于Imagination、ARM等IP厂商的路线图制约[21928]
团队经验无与伦比:核心团队拥有15代以上GPU迭代量产经验,这在全球GPU人才池中都极为稀缺[21808]
WHQL认证的先发优势:作为中国唯一一家通过微软WHQL认证的GPU厂商,砺算在Windows生态兼容性上建立了明确的壁垒[21840]
图形渲染的独特定位:在几乎所有国产GPU公司都涌向AI/GPGPU的背景下,砺算选择了图形渲染这个“Hard模式”赛道,差异化竞争优势明显[21675]
财务状况极度脆弱:累计亏损超5亿,营收近乎为零,高度依赖外部输血,资金链断裂风险始终存在[21712]
团队稳定性堪忧:两度欠薪严重打击了员工士气,核心技术人员可能流失[21685]
产品性能差距:实际游戏性能仅相当于RTX 3060(发布于2021年),与NVIDIA最新产品差距约2-3代[21732]
定价缺乏竞争力:¥3,299的售价与RTX 5060 Ti(约¥2,500-3,000)重叠,性能却落后一代以上[21692]
AI训练能力空白:7G100在AI训练场景中几乎无竞争力,无法切入当前最大的算力需求市场
无光线追踪:在2026年的游戏市场中,缺少硬件光追是明显的功能缺失[21704]
砺算是国产GPU中 最接近NVIDIA GeForce产品线定位 的公司,但技术差距显著:
| 维度 | 砺算7G106 | NVIDIA RTX 4060 | NVIDIA RTX 3060 |
|---|---|---|---|
| 制程 | 6nm | 5nm (TSMC 4N) | 8nm (Samsung) |
| 显存 | 12GB GDDR6 | 8GB GDDR6 | 12GB GDDR6 |
| FP32算力 | 24 TFLOPS | 15 TFLOPS | 12.7 TFLOPS |
| 光线追踪 | ❌ | ✅ 3rd Gen | ✅ 2nd Gen |
| DLSS | ❌ | ✅ DLSS 3 | ✅ DLSS 2 |
| 实际游戏性能 | ≈RTX 3060 | 基准 | — |
| 价格 | ¥3,299 | ~¥2,200 | 已退市 |
结论:7G100在纸面算力上不输RTX 4060,但在实际游戏性能、功能完整性和生态成熟度上,大约落后NVIDIA两代。它更像是2021年RTX 3060的“2026年国产复刻版”——能跑游戏,但远谈不上性价比。
砺算科技是国产GPU赛道中 最具技术含金量、也最令人揪心的公司。它做出了中国第一颗真正全自研的图形GPU,拿到了全球唯四的微软WHQL认证,证明了“中国人也能从零造出显卡”——这件事本身已经具有历史意义。
但砺算也暴露了国产GPU创业的残酷现实:在NVIDIA每年投入数十亿美元研发、拥有数十年生态积累的赛道上,一家初创公司即使拥有顶级团队,也极难独立生存。 砺算两度濒临破产,恰恰说明“技术正确”不等于“商业正确”。
从投资角度看,砺算最大的价值在于其 “唯一性”——它是中国唯一真正的全自研图形GPU公司。如果国产替代的浪潮持续,如果国家决心扶持一个“中国的NVIDIA”,砺算的团队和架构是最接近这个目标的火种。但这把火是否能在资金断流之前烧到足够大,是一个巨大的不确定性。
一句话总结:砺算科技的TrueGPU天图架构是中国图形GPU的“火种”,但火种正在寒风中摇曳。
同上
芯动科技(Innosilicon Technology Ltd.)是中国大陆最老牌的半导体IP和芯片定制服务商之一,成立于2006年,2007年正式注册(北京),核心运营总部位于武汉东湖高新区,在珠海、苏州、西安、上海、深圳、大连、成都等地设有研发中心,海外在硅谷、多伦多、渥太华、伦敦设有办事处[21997]。公司以”一站式IP和芯片定制+GPU”双轮驱动,聚焦”计算、存储、连接”三大赛道,是国内极少数横跨IP授权、ASIC定制和GPU产品三层面的企业[22009]。
| 项目 | 详情 |
|---|---|
| 公司全称 | 芯动科技(北京)有限公司 / 芯动微电子科技(珠海)有限公司 |
| 英文名 | Innosilicon Technology Ltd. |
| 成立时间 | 2006年创立,2007年10月注册 |
| 总部 | 武汉(运营)/ 北京(注册)/ 珠海(横琴重要基地) |
| 创始人/实控人 | 敖海(董事长兼CEO) |
| 核心高管 | 敖钢(联合创始人/副总)、毛鸣明(工程副总)、杨喜乐(首席算法科学家)、高专(IP研发副总)、何颖(GPU项目总监) |
| 技术路线 | Imagination GPU架构授权 + 自研演进 + 自研高速接口IP + RISC-V CPU |
| 是否严格GPU | 是——全功能GPU(图形渲染+AI计算+科学计算),但GPU计算架构源自Imagination授权 |
| 代表产品 | 风华1号(2021,12nm)、风华2号(2022,桌面)、风华3号(2025.9,全功能) |
| 员工规模 | 1000+人研发团队(截至2026年) |
| 客户 | 全球300+企业,含AMD、微软、海思等;IP授权累计逾100亿颗SoC芯片量产 |
| 融资/估值 | 非上市,估值约300亿元(2024年独角兽榜单)[22070] |
| 上市状态 | 未上市,IPO计划未公开披露 |
架构师评注:芯动科技是国产GPU赛道中最”非典型”的玩家——它不靠风险投资烧钱做GPU,而是以18年IP业务积累的利润反哺GPU研发。芯动副总裁毛鸣明曾公开表示:“我们做GPU可以说没有花投资人一分钱”[22188]。这种”以IP养GPU”的模式,在国产GPU创业公司中独一无二,但也意味着GPU业务的规模受制于IP业务的盈利能力。芯动本质上是一家”IP公司做了GPU”,而不是”GPU公司顺便做IP”——这个基因差异深刻影响了它的产品策略和市场定位。
芯动科技由4名硅谷归国科学家于2006年创立,核心人物是敖海[21996]。
敖海(创始人、董事长兼CEO):拥有15年北美高端芯片综合研发和管理经验,国家”千人计划”引进专家,拥有多项发明专利。曾在美光科技(Micron)任职,带领团队开发多款高速存储芯片。2006年辞去硅谷高薪工作回国创业,在武汉创立芯动科技[21995]。敖海对国内芯片产业链的痛点有切身感受——“我发现国外技术企业对国内工艺支持较差,一般国内代工厂通常会晚于美国企业半年到一年才能拿到一些核心IP”[22186]。
敖钢(联合创始人/副总经理):芯动科技的核心对外发言人之一,多次代表公司在公开场合阐述芯动战略。在2021年ICCAD期间接受专访时详细解释了芯动从IP切入GPU的逻辑[21997]。
毛鸣明(工程副总裁):负责GPU产品工程落地,是风华系列GPU工程实现的核心人物。在风华1号发布后,他直言”GPU设计的复杂度确实很大,架构从零开始设计的时间周期太长,涉及的专利太多,所以芯动科技选择了’站在巨人的肩膀上’“[22038]。
杨喜乐(首席算法科学家):全球GPU芯片领域从几何物理渲染到计算引擎的顶级专家。博士毕业后曾在英国Imagination公司担任架构师,25年间一直从事GPU核心图形引擎的建模和创新,持有GPU 3D计算机图形学核心领域顶级图形专利共计125项。Imagination、苹果等公司最新核心GPU产品的设计、优化和迭代都离不开她的专利和算法[22209]。
高专(IP研发副总裁):负责芯动高速接口IP体系,主导了Innolink™ Chiplet互连解决方案的研发[22352]。
何颖(GPU项目总监):在风华2号发布会上阐述了芯动GPU的技术路线——“现代GPU的涉及面广、开发应用方面有很多技术壁垒。要拿出一款对标行业先进水平的图形GPU,且流畅兼容各种应用,靠买一款GPU IP是不会有什么建树的”[22040]。
架构师评注:芯动团队的核心竞争力不在于GPU架构原创能力,而在于 高速接口IP的深厚积累+GPU工程化落地能力。杨喜乐博士的加入补上了图形引擎核心算法的短板,使得团队具备了在Imagination架构基础上进行深度自研演进的能力。但需要指出的是,芯动团队缺乏像沐曦陈维良/彭莉那样完整的服务器级GPU从定义到量产的全流程经验,其GPU基因更多来自IP定制和嵌入式图形领域。
| 时间 | 关键事件 |
|---|---|
| 2006年 | 敖海等4名硅谷科学家回国,在武汉创立芯动科技[21996] |
| 2007年 | 芯动科技(北京)有限公司正式注册[22006] |
| 2012年 | 成为海思首个国内IP战略合作伙伴,支持华为多款先进产品量产[22392] |
| 2014年 | 开始介入图形领域,开发ISP芯片,后被亚马逊部分收购[22187] |
| 2018年 | 全球首发GDDR6高带宽显存技术,与英伟达同步打破内存墙[22082] |
| 2020年 | 推出INNOLINK Chiplet高性能计算平台;助力中芯国际突破N+1工艺良率瓶颈[22321] |
| 2020年10月 | 与Imagination Technologies达成GPU架构授权合作[22163] |
| 2021年11月 | 发布首款国产4K级显卡GPU”风华1号”[21989] |
| 2022年8月 | 发布”风华2号”桌面GPU,现场签约5亿元合作[22206] |
| 2022年10月 | ”风华1号”正式量产[22212] |
| 2023年 | 风华2号在信创桌面领域规模出货、市占率领先[22127] |
| 2024年 | 加入openKylin GPUSIG,推进国产OS适配[22366] |
| 2025年9月22日 | ”风华3号”全功能GPU在珠海发布,拿下7项行业第一[22067] |
| 2025年Q4 | 风华3号近十家合作伙伴现场签约规模采购,覆盖智算中心、医疗等领域[22287] |
| 2026年 | 风华3号持续推进商业化落地;LPDDR6子系统IP实现头部客户交付[21982] |
数据来源:综合整理
架构师评注:芯动的发展节奏呈现出”慢-快-慢”的特征。从2006年成立到2021年发布首款GPU,用了整整15年积累IP技术底座;但从风华1号到风华3号,仅用4年就完成了三代产品迭代。值得注意的是,风华1号到2号是2021→2022(仅1年),而风华2号到3号是2022→2025(3年)——这3年的”空窗期”恰恰是芯动从”图形渲染GPU”向”全功能GPU”战略升级的关键期,也是国产GPU整体从”能用”到”好用”的攻坚期。
“风华3号”是芯动科技当前最具战略意义的产品,官方宣称实现”7个行业第一”[22067]:
| 规格维度 | 详情 |
|---|---|
| 显存容量 | 112GB+ 高带宽显存(国内首款单卡>100GB的全功能GPU) |
| FP32算力 | 78 TFLOPS(足以支撑大模型训练和复杂科学计算) |
| 显存带宽 | 约1.8 TB/s(接近NVIDIA A100的1.935 TB/s水平)[22345] |
| 图形API | DirectX 12、Vulkan 1.2、OpenGL 4.6(国内首款完整支持DX12 Ultimate) |
| 光线追踪 | 硬件级光线追踪,8K分辨率重度渲染 |
| CPU集成 | 国内首款集成开芯院”南湖V3”RISC-V开源CPU的GPU |
| AI生态 | 兼容CUDA框架、PyTorch、Triton、OpenCL |
| 大模型 | 适配100+主流大模型,单卡支持32B/72B,八卡直驱671B DeepSeek满血版 |
| 视频编码 | 国内首款支持YUV444无损视频编码 |
| 多屏显示 | 6屏8K30高清异显 |
| 医疗 | 全球首款原生支持DICOM高精度灰阶显示 |
| 虚拟化 | 支持vGPU虚拟化 |
| 超节点 | 支持单节点64卡/128卡/256卡弹性扩展 |
数据来源:[22051]
(1)“全功能GPU”定位——国产独一无二
芯动是国内唯一旗帜鲜明地定位”全功能GPU”路线的厂商。所谓”全功能”,是指一块芯片同时具备图形渲染、AI计算和科学计算三大能力——这正是NVIDIA GeForce/Quadro系列的核心竞争力[22117]。风华3号在发布现场同时演示了3A游戏运行、大模型推理和CAD工业软件,展示了”一卡三用”的能力。
(2)Imagination架构授权 + 深度自研演进
这是芯动GPU技术路线最核心、也最富争议的特点。芯动与Imagination的合作是”架构授权”(Architecture License),与苹果使用Imagination GPU IP的模式相同——不是简单的IP核集成,而是获得底层架构后进行自主修改和演进[22151]。风华1号80%以上的IP为自主研发,包括自研Cache一致性Innolink Chiplet技术、GDDR6/GDDR6X Combo PHY、PUF安全技术等[22151]。
(3)“存力-算力-运力-适配力”四力模型
芯动提出了一个独特的技术价值观:在AI时代,GPU的核心竞争力不在于单纯的算力,而在于存力(显存容量)、算力(并行计算能力)、运力(数据搬运带宽)和适配力(软件生态兼容)的深度融合[22117]。风华3号的112GB+超大显存正是这一理念的产物——芯动认为,如果数据不能及时有效到达计算单元,“所谓的算力并不能有效地实现大模型性能”[22101]。
(4)RISC-V + CUDA兼容GPU的架构融合
风华3号集成了开芯院”南湖V3”RISC-V处理器核,是国内首款实现”开源RISC-V CPU + 兼容CUDA GPU”架构融合的芯片[22111]。这意味着GPU内部的控制面和管理任务可以由RISC-V CPU处理,降低了对x86/ARM主机CPU的依赖。
(5)自研高速接口IP全栈
芯动拥有国内最完整的高速接口IP组合:GDDR7/6X/6、HBM3E/4、LPDDR6/5X、UCIe Chiplet(INNOLINK™)、PCIe 5/6、112G/224G SerDes[22180]。这些IP不仅是芯动对外授权的核心产品,也是风华GPU内部互联和显存子系统的技术底座。
| 生态维度 | 风华1号/2号 | 风华3号 |
|---|---|---|
| 图形API | DX11、OpenGL 4.3、Vulkan | DX12、Vulkan 1.2、OpenGL 4.6 |
| 计算框架 | OpenCL | CUDA兼容、PyTorch、Triton、OpenCL |
| 操作系统 | Windows、Linux(含国产)、Android | Windows、统信、麒麟、Android |
| CPU平台 | x86、ARM、龙芯、飞腾、海光、兆芯、鲲鹏、申威 | 同前 + RISC-V(南湖V3) |
| 大模型 | 不支持 | 100+模型适配,DeepSeek V3/R1/V3.1、Qwen2.5/3全系列、GLM全系列 |
| 国产OS认证 | 统信UOS UHQL、麒麟互认证 | 统信、麒麟 |
| 开源社区 | openKylin GPUSIG成员 | openKylin GPUSIG成员 |
数据来源:[22042]
架构师评注:风华3号的软件生态是芯动最大的”跳跃式进步”——从风华2号的DX11/OpenGL 4.3直接跳到风华3号的DX12 Ultimate/类CUDA兼容,跨度之大在国产GPU中罕见。但”兼容CUDA”的具体实现方式(是源码级翻译、二进制翻译还是API映射)目前公开资料并未详细说明,这直接决定了实际迁移成本。此外,风华3号虽宣称支持100+大模型,但”支持”的深度(精度、性能、是否仅推理还是包含训练)需要进一步验证。
芯动科技的业务分为三个层次:
(1)IP授权业务(基本盘)
(2)芯片定制服务
(3)风华系列GPU
架构师评注:芯动是国产GPU厂商中少数真正实现了”从IP到芯片到产品到规模出货”完整闭环的公司。尤其是风华2号在信创桌面市场的表现,说明芯动在图形渲染这一”基本功”上确实有两把刷子。但需要清醒认识的是,信创桌面GPU的市场天花板较低(量虽大,单价低,多在千元级别),而风华3号能否在AI算力市场(单价数万至数十万)实现同样的规模出货,将是决定芯动GPU业务天花板的关键。
关键提示:芯动科技(Innosilicon)是一家 未上市 的私人公司,财务数据不公开。公开市场上有一家名为”芯动联科”(688582.SH)的科创板上市公司,但那是 安徽芯动联科微系统股份有限公司,主营MEMS惯性传感器,与芯动科技(Innosilicon)完全不是同一家公司。请读者务必注意区分。
芯动科技(Innosilicon)的公开财务信息:
| 维度 | 信息 | 可信度 |
|---|---|---|
| 估值 | 约300亿元(2024年”中国芯片独角兽50强”榜单)[22070] | 中等(非官方披露) |
| 融资 | 无公开融资轮次信息。副总裁毛鸣明表示”做GPU没有花投资人一分钱”[22188] | 高(官方表态) |
| 盈利状态 | 毛鸣明表示”在GPU重大开发投入的情况下,还始终保持盈利”[22188] | 中等(无审计数据) |
| IP业务规模 | 公开资料称”IP产业的产值是比较低的”,这是芯动从IP转向GPU的原因之一[22140] | 高(官方表述) |
| GPU收入 | 风2号”信创桌面领域规模出货”;风2号发布会现场签约5亿元[22206];风3号有”规模采购”签约[22287] | 低(具体金额未披露) |
架构师评注:芯动科技”不靠融资做GPU”的底气来自其IP业务——18年积累的IP授权费和定制服务费提供了稳定的现金流。但IP业务的营收规模天然有限(全球半导体IP龙头Arm在2017-2019年营收仅为18-19亿美元级别[22140]),这意味着芯动GPU业务的研发投入规模可能受限于IP业务的利润池。如果芯动希望在AI大芯片赛道与华为昇腾、寒武纪等”烧钱派”竞争,未来可能需要考虑外部融资或IPO。
① 国内最完整的高速接口IP体系:芯动在GDDR6/6X/7、HBM3E/4、LPDDR5/5X/6、UCIe Chiplet、PCIe 5/6、112G/224G SerDes等高速接口领域拥有全套自研IP,且经过全球顶级代工厂的数百次流片验证。这是芯动最深的护城河——其他国产GPU厂商需要从零自研或外购这些IP,而芯动是自有的。
② “计算+存储+连接”全栈能力:芯动不只是GPU公司,还推出了DDR5内存模组、PCIe 5交换芯片等产品,构建了完整的数据中心互联产品矩阵[22228]。这种”全栈”能力在国产厂商中独一无二,意味着芯动可以提供从GPU到互联到存储的一体化解决方案。
③ 跨代工厂兼容能力:芯动是全球极少数同时在台积电、三星、中芯国际等多家代工厂完成5nm及以下先进工艺验证的IP公司[22403]。这种”工艺可移植性”为芯动GPU提供了宝贵的供应链弹性。
④ 图形渲染能力在国产GPU中领先:风华3号是国内首款支持DX12 Ultimate和硬件光线追踪的国产GPU[22057]。在图形渲染这个”硬功夫”上,芯动明显领先于绝大多数国产AI加速器厂商。
⑤ 以IP养GPU的可持续商业模式:不依赖外部融资烧钱,理论上具有更强的抗风险能力和长期耐力。
① GPU计算架构依赖Imagination授权:风华系列GPU的底层计算架构来自Imagination BXT多核架构。虽然芯动获得了”架构授权”并进行了深度自研演进,但核心计算单元的设计基因并非完全自主。Imagination的GPU架构最初面向移动端和嵌入式,扩展到高性能计算和AI负载的效率和天花板有待验证。
② AI训练能力未经验证:风华3号虽然宣称78 TFLOPS FP32算力,但截至目前(2026年6月),公开资料中未见风华3号在大模型训练场景下的第三方独立评测数据。模型训练不仅需要算力,还需要高效的显存带宽、多卡互联、混合精度支持、分布式训练框架适配等——这些方面的实际表现”公开资料有限,需进一步核验”。
③ 软件栈成熟度存疑:风华3号的”CUDA兼容”能力具体实现方式不明。如果是源码级翻译层,性能和兼容性可能大打折扣;如果是二进制翻译,则面临法律和稳定性风险。
④ 未上市,资本实力受限:300亿估值在半导体行业不算低,但面对华为昇腾(华为集团支持)、寒武纪(上市公司)等竞争对手,芯动在资本层面的弹药储备相对有限。
⑤ 从桌面到数据中心的跨越:风华1号/2号主要在桌面和云游戏场景,风华3号突然转向数据中心AI——这是两个完全不同的技术要求和市场逻辑。数据中心GPU需要ECC显存、更高的可靠性、集群管理、运维工具等,芯动在这方面的积累尚浅。
芯动科技的供应链风险呈现出”两面性”——在IP层面具有极强的跨平台弹性,但在GPU产品层面存在潜在风险。
| 风险维度 | 评估 | 说明 |
|---|---|---|
| Imagination授权风险 | ⚠️ 中高风险 | Imagination是英国公司,但已被中资背景的Canyon Bridge收购(2017年)。如果未来地缘政治导致授权受限,芯动GPU架构演进将面临严重瓶颈 |
| 先进制程代工 | ⚠️ 中等风险 | 芯动与台积电/三星/中芯国际均有合作,理论上可弹性切换。但最先进制程(5nm及以下)仍高度依赖台积电,而台积电对中国大陆GPU公司的代工受美国出口管制约束 |
| HBM/先进显存供应 | ⚠️ 中等风险 | 风华3号的112GB+大容量显存可能采用HBM堆叠或先进GDDR方案。HBM全球供应被SK海力士和三星垄断,均受美国出口管制影响 |
| 中芯国际N+1/N+2 | ✅ 相对优势 | 芯动是首个完成中芯国际N+1工艺流片的公司,如果被迫转投国内代工,芯动在国产工艺上的经验积累是重要优势[22409] |
| EDA工具 | ⚠️ 行业共性风险 | 同所有国产芯片公司 |
架构师评注:芯动最独特的供应链优势在于——如果台积电全面断供,它可以相对更快地将GPU设计迁移到中芯国际工艺。因为芯动本身是中芯国际的”最佳IP合作伙伴”,且在中芯N+1工艺上有首发经验。但先进制程的性能差距(中芯7nm vs 台积电5nm/3nm)意味着GPU竞争力将显著下降。
| 维度 | 芯动科技 | NVIDIA | AMD | Intel |
|---|---|---|---|---|
| 产品定位 | 全功能GPU(图形+AI+计算) | GeForce/Quadro → 对标 | Radeon/Radeon Pro → 部分对标 | Arc → 部分对标 |
| 图形架构来源 | Imagination BXT(授权+自研演进) | 自研(Ada Lovelace/Blackwell) | 自研(RDNA/CDNA) | 自研(Xe) |
| AI计算架构 | Imagination GPU Shader + CUDA兼容层 | CUDA Core + Tensor Core | CDNA Matrix Core | Xe Matrix Engine |
| 风华1号≈ | — | GTX 1050级别(像素填充率) | — | — |
| 风华2号≈ | — | GTX 1050(48GPixel/s vs 43.3GPixel/s)[22242] | — | — |
| 风华3号≈ | 宣称”性能追平国际主流” | 理论FP32接近A100(78 vs 19.5 TFLOPS),但架构不同 | 理论FP32接近MI250X级别 | — |
架构师评注:芯动科技与NVIDIA的最关键差异不在于芯片规格,而在于 架构路线的根本不同。NVIDIA的核心竞争力是”自研GPU架构 + CUDA生态 + Tensor Core + NVLink + 网络(Mellanox)“的垂直整合。芯动走的是一条”Imagination架构授权 + 自研IP + 兼容CUDA生态 + RISC-V”的横向整合路线。从技术哲学角度看,芯动更接近”用IP集成能力打差异化”,而非”用架构原创能力打性能”。这种路线在信创桌面和中低端服务器市场可能有效,但在高端AI训练市场面临较大挑战。
2026-2028年,芯动科技面临以下关键节点:
乐观情景(概率约30%):
中性情景(概率约45%):
悲观情景(概率约25%):
核心判断:芯动科技最可能的出路是成为 “国产GPU的特色化方案提供商”——在信创桌面(风华2号)、医疗影像(DICOM)、云游戏/云桌面、GIS地理信息等垂直场景建立差异化优势,而非在AI训练主战场与华为昇腾正面竞争。其”IP+GPU”的双轮驱动模式在行业淘汰赛中具有更强的抗风险能力,但也意味着更慢的增长速度。如果芯动能在未来3年完成IPO,资本实力将得到质的提升,从而有机会加速GPU产品迭代。
架构师一句话总结:芯动科技是国产GPU赛道中最”务实”也最”另类”的玩家——它用18年IP积累的利润养出了GPU,用Imagination的架构授权做出了国内图形能力最强的全功能GPU,但GPU计算架构的底层基因不完全是自己的,这决定了它在大模型训练这个”硬核战场”上的天花板。风华3号是一张漂亮的答卷,但真正的考验在于——这张答卷能否在客户的真实生产环境中拿到高分。公开信息有限,需持续跟踪风华3号的第三方评测和实际部署案例。
同上
定位:中国GPU赛道中最具”技术长跑”精神的”草根”玩家——从西安邮电大学实验室走出,是国内唯一一支经历”高校实验室→FF01验证→两代量产→三代规划”全链条的”纯血GPU团队”。
核心判断:芯瞳半导体是中国国产GPU赛道中一个极为特殊的存在。它不像华为昇腾背靠通信巨头,不像摩尔线程有NVIDIA全明星团队加持,也不像壁仞手握百亿级融资。它以”学术血统”和”极致功耗与多屏显示”的差异化技术在信创图形显示赛道构建了独特的护城河,但这份”技术长跑”的耐力,在商业化层面却显得力不从心。2025年营收仅5078万元,净资产-1967万元,已资不抵债 [22497]。2026年3月,纸包装龙头大胜达以5.5亿元换得22.98%股权,用”流片成功才付全款”的对赌条款为芯瞳续命,也将这家公司推向了第三次”生死关口” [22635]。芯瞳的命运,本质上是国产GPU”小而美”路线能否在资本和巨头夹击下存活的一个缩影。
芯瞳半导体技术(厦门)有限公司(Sietium)成立于2019年11月,是国内专注通用高性能GPU芯片设计的高科技企业 [22461]。公司早期注册于西安高新区,后随业务拓展在山东烟台设立主体,2024年12月将总部正式迁至厦门集美软件园三期 [22534]。
芯瞳是工信部信创工委会GPU工作组 副组长单位,定位为”国产GPU自主研发领创企业” [22458]。公司以统一渲染架构为核心,面向桌面办公、嵌入式设备、工控显示、信创PC及多屏显示等场景提供国产GPU解决方案 [22441]。
截至2026年4月,公司团队约150-200人,研发人员占比超过85%,硕博比例超过52% [22467]。在GPU核心技术领域拥有上百项发明专利、数十项软件著作权和多项集成电路布图设计 [22467]。
芯瞳的基因里写满了”学院派”三个字。从西安邮电大学实验室到厦门集美总部,从FF01验证芯片到GB3000的规划,这支团队走的是一条”慢工出细活”的长线技术路线。但”慢”在GPU赛道是一把双刃剑——当竞争对手以”烧钱换时间”时,技术的积累深度能否弥补商业化的速度差距,是芯瞳面临的核心命题。
芯瞳的创始团队是中国GPU领域最”古老”的团队之一,其核心成员全部来自西安邮电大学GPU研发团队,是国内最早系统性从事GPU芯片设计的学术+产业复合型团队 [22483]。
| 角色 | 姓名 | 背景 |
|---|---|---|
| 创始人/董事长/CEO | 黄虎才 | 西安邮电大学电子工程学院教授。2009年起带队研发GPU,是国内最早GPU研发团队的核心成员。2015年主导国内首款自主GPU芯片FF01的流片并通过沈绪榜、郝跃两位中科院院士主持的鉴定。2019年创立芯瞳半导体,推出GenBu01、GB2062、CQ2040三代GPU [22478] |
| 联合创始人/CTO | 李洋 | 西邮GPU团队核心成员,16年以上图形学与高性能计算研发经验,负责芯片架构、流片、软件生态建设,是公司公开受访的主要技术发言人 [22478] |
| 董事/技术专家 | 蓝善清 | 原Intel、AMD资深架构师,GPU图形管线、渲染核心专家,为团队注入国际化GPU设计经验 [22478] |
| 核心骨干 | 刘周平、刘琳林、周宁等 | 西邮GPU团队元老,分别来自海思、中兴、Mstar、RedHat、腾讯等,构建了完整GPU软硬件研发体系 [22478] |
团队溯源:2009年,由陕西省属13115工程中心韩俊刚教授与留美归国技术专家发起,黄虎才参与,共同组建了国内最早专注于GPU芯片研发的技术团队。2015年推出国内第一款自主知识产权GPU芯片FF01,通过陕西省科技厅主持、沈绪榜和郝跃院士担任鉴定组主任的鉴定 [22675]。这一团队是芯瞳的”技术基因”来源。
芯瞳团队的独特之处在于”学术血统”——这在国内GPU创业公司中绝无仅有。黄虎才是教授创业,团队从实验室起步,带着”发论文、做鉴定、拿奖项”的学术惯性进入产业。这种背景的好处是技术根基扎实、不浮躁;坏处是商业化意识和市场节奏感先天不足。FF01通过院士鉴定时,景嘉微的JM5400已经量产落地——“学术认可”和”商业认可”之间的鸿沟,芯瞳至今仍在跨越。
| 时间 | 里程碑 |
|---|---|
| 2009年 | 西安邮电大学GPU研发团队组建,韩俊刚教授与留美归国专家发起,黄虎才参与 [22683] |
| 2015年 | FF01芯片流片并通过鉴定,被认定为国内第一款自主知识产权GPU芯片 [22675] |
| 2019年11月 | 芯瞳半导体正式成立,创始团队与天使投资人卢涛共同出资 [22479] |
| 2020年4月 | 第一代GPU芯片GenBu01流片成功,创下”一次流片、一版封装、一次调通”记录,国内第一款统一渲染架构GPU芯片,TSMC 40nm LP工艺 [22481] |
| 2020年8月 | GenBu01正式对外推出,完成与飞腾、龙芯、麒麟、统信等国产CPU/OS适配 [22525] |
| 2021年5月 | 第二代自研芯片GB2062架构设计完成 [22529] |
| 2023年4月 | 完成A轮超亿元融资,烟台市财金发展投资集团、山东省引导基金、金科君创等联合领投 [22419] |
| 2023年6月 | 第二代GPU产品GB2062/CQ2040正式发布,12nm工艺,1.3 TFLOPS FP32 [22454] |
| 2023年9月 | 与旌宇(Sparkle)达成战略合作,推出国产化首个多屏显卡产品矩阵 [22614] |
| 2023年10月 | 被曝裁员传闻,联合创始人李洋回应称”近期公司因业务调整确有优化,但是大规模裁员纯属谣言” [22693] |
| 2024年12月 | 总部正式迁入厦门集美软件园三期,成为集美招商并购基金引进的首个招商项目 [22534] |
| 2025年2月 | CQ2040 GPU完成与DeepSeek模型的兼容适配 [22463] |
| 2025年 | 全年营收5078万元,亏损收窄至4899万元,但净资产-1967万元,资不抵债 [22497] |
| 2026年3月 | 大胜达(603687.SH)公告拟以5.5亿元取得芯瞳22.9831%股权,投前估值20亿元,二期2.5亿元以GB3000流片成功为条件 [22425] |
| 2026年Q3(计划) | 第三代GPU GB3000计划流片,7/10nm工艺,FP32规划17-53 TFLOPS [22517] |
芯瞳的发展节奏可概括为”十年磨一剑,五年出三代”。从FF01到GB3000,团队的技术迭代速度并不慢,但产品定位始终停留在”信创图形显示”层面——GenBu01对标的是GT 710/720级别的入门卡,GB2062/CQ2040对标GT 1030(2017年发布),而GB3000则试图跨越式对标RTX 4070 Ti。这种从”入门级”到”中高端”的跳跃,技术跨度极大,风险不言而喻。
芯瞳已完成两代GPU芯片的量产,第三代处于流片准备阶段。
| 产品 | 代际 | 工艺 | 核心参数 | 目标市场 | 状态 |
|---|---|---|---|---|---|
| GenBu01 | 第一代 | TSMC 40nm LP | 统一渲染架构,OpenGL 4.3,1080P,VGA+HDMI双路输出,3W功耗 | 嵌入式设备、办公电脑、工控显示 | 2020年量产 [22525] |
| GB2062 / CQ2040 | 第二代 | 12nm CMOS | 1152流处理器,FP32 1.3 TFLOPS,256-bit显存位宽,最大32GB LPDDR4/DDR4,PCIe 4.0,10W,6屏原生4K输出,OpenGL 4.0/ES 3.0/Vulkan 1.3,H.264/H.265编解码 | 信创PC、CAD/GIS、多屏显示、轻量AI推理 | 2023年量产 [22454] |
| GB3000(规划) | 第三代 | 7/10nm(中芯国际) | FP32 17-53 TFLOPS,FP16/BF16 34-106 TFLOPS,32GB GDDR6,768GB/s带宽,PCIe 5.0 x16,OpenGL 4.6/Vulkan 1.3/DX12/光追基础,6屏4K/8K,CUDA 11.x兼容,ROCm适配 | 图形渲染+AI推理中高端市场,对标RTX 4070 Ti/4080 | 2026年Q3计划流片 [22517] |
CQ2040产品规格详解(来自官网)[22593]:
多屏产品矩阵:通过与旌宇合作,推出GB2062 4HDMI mini、GB2062 4HDMI LP、GB2062 2HDMI LP和GB2062 2HV LP四款板级产品 [22614]。
架构师视角点评:CQ2040的1.3 TFLOPS FP32算力与英伟达GT 1030(2017年发布)相当,功耗仅10W——能效比其实不差,但绝对性能落后近10年 [22522]。真正的亮点在于6屏原生4K输出——这是目前国产GPU中独有的多屏能力,在交通航运、金融证券、安防监控等场景有真实需求 [22570]。GB3000如果真能实现规划的17-53 TFLOPS,那将是一个质的飞跃,但7nm流片对一支200人团队来说,难度堪比”小学生直接参加高考”。
(1)统一渲染架构:芯瞳是国内第一家采用统一渲染架构的GPU设计公司 [22460]。GenBu01的”一次流片、一版封装、一次调通”在当时国内GPU领域极为罕见,反映了团队在GPU架构层面的深厚积累 [22481]。
(2)超低功耗设计:GenBu01平均功耗仅3W,CQ2040为10W,在国产GPU中功耗控制最为出色 [22454]。这在嵌入式、工控和信创终端场景中具有显著优势。
(3)多屏显示能力:CQ2040拥有6路原生独立显示通道,支持多屏4K超高清显示,4种显示模式(扩展、复制、拼接、拆分组合),这是目前国产GPU中独有的特性 [22565]。
(4)芯片建模虚拟平台:团队构建了独有的芯片建模虚拟平台,可快速完成GPU软件研发和生态部署,同时快速验证芯片架构,缩短设计验证周期 [22440]。
(5)全信创生态适配:已完成与60+家国内主流软硬件厂商的兼容性互认证,包括飞腾、龙芯、鲲鹏、海光、兆芯、申威等CPU,以及麒麟、统信等操作系统 [22441]。业内首家支持UE4/UE5引擎 [22478]。
(6)全国产化生产工艺:CQ2040采用全国产化生产工艺,不依赖境外先进制程 [22439]。
芯瞳的技术特色可以概括为”小而美”——不追求极致算力,但在功耗、多屏、生态适配等细分维度上做到了国产领先。这种策略在信创市场是合理的,但缺点是天花板明显:1.3 TFLOPS的算力无法进入AI训练和推理的主战场,多屏显示的市场规模有限。
芯瞳的软件生态构建以”信创适配”为核心,覆盖面广但深度有限。
| 维度 | 支持情况 |
|---|---|
| 图形API | OpenGL 4.0/4.3、OpenGL ES 3.0、OpenCL 1.2、Vulkan 1.3(Core)[22593] |
| AI框架 | MNN、PaddlePaddle [22593] |
| CPU架构 | X86、ARM、LoongArch、SW(申威)[22530] |
| 国产CPU | 飞腾、龙芯、海光、兆芯、申威、鲲鹏 [22524] |
| 国产OS | 统信UOS、银河麒麟、中科方德、翼辉、腾讯OS、凝思、博云、OpenCloudOS [22524] |
| 国产BIOS | 昆仑太科 [22524] |
| 引擎支持 | UE4、UE5(业内首家国产GPU支持)[22478] |
| 多媒体 | H.264、H.265、VP9编解码,支持FFmpeg及自适应码率调节 [22565] |
| 大模型 | 完成DeepSeek模型兼容适配(2025年2月)[22463] |
| 未来规划 | GB3000规划支持CUDA 11.x兼容、ROCm、DX12、光追基础 [22517] |
芯瞳的软件生态是典型的”信创驱动”——先做国产CPU/OS适配,再补图形API和AI框架。驱动成熟度偏低——OpenGL 4.0(而非4.6)和OpenCL 1.2(而非2.x/3.0)说明软件栈仍处于早期阶段。CUDA兼容是GB3000的规划而非现实——考虑到CUDA兼容的技术难度和法务风险,这一承诺的兑现难度极大。
芯瞳的商业化进程处于”早期小批量出货”阶段,主要市场集中在信创PC/工控/多屏显示领域。
核心客户群体(公开资料有限,需进一步核验)[22497]:
在手订单:截至2026年4月,在手订单约1.2亿元(主要为第二代GPU产品)[22497]。
营收数据 [22497]:
市场地位 [22478]:
5000万营收、1.2亿在手订单、-1967万净资产——这是芯瞳商业化最真实的底色。在信创市场,景嘉微是当之无愧的老大(2024年营收超10亿),芯瞳与龙芯、飞腾等CPU厂商的绑定深度远不及景嘉微。但芯瞳的差异化优势在于多屏显示和超低功耗——这使其在工控、交通等细分赛道有独特价值,只是这些赛道本身的规模天花板较低。
| 融资轮次 | 时间 | 金额 | 主要投资方 | 估值 |
|---|---|---|---|---|
| 天使轮 | 2019年 | 未公开 | 卢涛等天使投资人 | — |
| Pre-A轮 | 约2021年 | 未公开 | 未公开 | — |
| A轮 | 2023年4月 | 超亿元 | 烟台市财金发展投资集团、山东省引导基金、金科君创领投,江诣创投、业达经发集团、龙鼎投资、正海投资、高鹏跟投 [22419] | — |
| 大胜达投资 | 2026年3月 | 5.5亿元(0.5亿老股+5亿增资) | 大胜达(603687.SH)及控股股东新胜达 | 投前20亿元,老股对应11.6亿元 [22420] |
大胜达交易的几个关键条款 [22635]:
20亿投前估值买一个年营收5000万、净资产为负的公司——这要么是”赌对了就赚100倍”的远见,要么是”传统企业跨界踩坑”的剧本。大胜达的”流片对赌”设计虽然在商业逻辑上合理(降低风险),但将一家GPU公司的命运完全押注在单次流片上,本身就是一种”赌徒式”的投资逻辑。对芯瞳而言,这笔钱是救命钱,但代价是创始人无限连带责任和几乎全盘的控制权让渡。
“纯血GPU”技术基因:从2009年至今17年不间断的GPU研发积累,国内唯一经历了”高校实验室→FF01验证→两代量产→三代规划”全链条的GPU团队 [22478]。
超低功耗设计能力:3W(GenBu01)/10W(CQ2040)的功耗水平在国产GPU中独树一帜,在嵌入式、工控等功耗敏感场景有天然优势 [22454]。
多屏显示技术壁垒:6屏原生4K输出能力是国产GPU的独家特性,在特定行业有刚需 [22565]。
信创生态深度适配:60+家国产软硬件互认证,工信部信创工委会GPU工作组副组长单位,在信创赛道有政策和生态先发优势 [22458]。
芯片建模虚拟平台:独有的虚拟平台大幅缩短了GPU研发和验证周期,GenBu01”一次流片成功”证明了这一方法论的有效性 [22440]。
产品代际严重落后:CQ2040(2023年)的1.3 TFLOPS性能仅相当于英伟达GT 1030(2017年),差距约6-7年。即使GB3000成功,与同期英伟达产品仍有2-3代差距 [22529]。
财务极度脆弱:2025年营收仅5078万元,净资产为负,资不抵债,高度依赖外部融资续命 [22497]。
团队规模偏小:150-200人的团队规模,在GPU赛道中属于”微型”——摩尔线程3000+人,壁仞1000+人,华为昇腾数千人。7nm芯片研发对200人团队是巨大挑战 [22478]。
AI能力薄弱:现有产品仅支持MNN和PaddlePaddle框架,无原生CUDA兼容,AI训练能力几乎为零,AI推理仅限于轻量级模型 [22593]。
软件栈成熟度低:OpenGL 4.0(而非4.6)、OpenCL 1.2(而非2.x/3.0),驱动稳定性、性能优化深度与成熟GPU厂商差距明显。
客户集中度高、品牌力弱:信创市场被景嘉微主导,芯瞳在品牌认知度、渠道覆盖、客户关系方面处于劣势。
| 风险维度 | 评估 |
|---|---|
| 先进制程获取 | GB3000规划采用中芯国际7/10nm——这是目前国产GPU面临的最大”卡脖子”点。中芯国际7nm良率约50-60%,新设计首次流片良率通常<30%。单次流片成本约3000-5000万元 [22517] |
| 代工依赖 | 前两代产品采用TSMC 40nm和12nm,制程相对成熟,风险可控。但第三代转向中芯国际先进制程,不确定性大幅增加 |
| 显存供应 | GB3000规划32GB GDDR6——国内GDDR6供应主要依赖三星、SK海力士和美光,国产替代方案尚不成熟 |
| EDA工具 | 作为Fabless设计公司,对Synopsys/Cadence等美系EDA工具存在依赖,但在12nm及以上节点国产EDA已可部分替代 |
| 封装 | 前两代采用传统封装,风险低。GB3000规划Chiplet异构封装(计算芯粒+显存芯粒分离),对先进封装能力有更高要求 [22517] |
芯瞳的供应链风险在GB3000上集中爆发——7nm流片、GDDR6显存、Chiplet封装,每一项都是当前国产供应链的薄弱环节。一代GenBu01用40nm,二代CQ2040用12nm,三代直接跳到7nm——这种”三级跳”式的制程跃迁,在技术上是合理的(要追性能必须上先进制程),但在供应链可行性上充满不确定性。
芯瞳是目前国产GPU厂商中 最接近”纯图形GPU”定位 的公司之一,与景嘉微形成直接对标关系。但其产品性能与NVIDIA/AMD/Intel差距极大:
| 对比维度 | 芯瞳 | 英伟达 | AMD | Intel |
|---|---|---|---|---|
| 代表产品 | CQ2040 / GB3000(规划) | RTX 4090 / H100 | RX 7900 XTX / MI300X | Arc A770 / Gaudi 3 |
| 最新FP32算力 | 1.3 TFLOPS (CQ2040) | ~83 TFLOPS (RTX 4090) | ~61 TFLOPS (RX 7900 XTX) | ~20 TFLOPS (Arc A770) |
| 图形API | OpenGL 4.0, Vulkan 1.3 | DX12 Ultimate, Vulkan 1.3, OpenGL 4.6 | DX12 Ultimate, Vulkan 1.3, OpenGL 4.6 | DX12 Ultimate, Vulkan 1.3 |
| AI生态 | MNN, PaddlePaddle | CUDA, TensorRT, cuDNN | ROCm, MIOpen | oneAPI, OpenVINO |
| 制程 | 12nm (量产) | 4nm (TSMC) | 5nm/6nm (TSMC) | 6nm (TSMC) |
最接近的对标:芯瞳的产品路线图本质上是对标 英伟达入门级消费显卡(GT 1030→RTX 4070 Ti),而非数据中心/AI加速卡。这一定位决定了芯瞳的天花板——它不太可能成为AI训练或大模型推理的主流选择,但在信创图形显示和工控领域有独特价值。
乐观情景(概率约30%):
基准情景(概率约50%):
悲观情景(概率约20%):
芯瞳的未来3年,完全取决于GB3000这一战。流片成功,公司还有机会在信创图形赛道站稳脚跟,逐步向AI推理延伸;流片失败,公司将面临”技术断档+资金断裂+团队流失”的三重打击。这是一种典型的”单点依赖”风险——对一家200人团队来说,将所有赌注压在单一芯片上,本质上是在和时间赛跑。而时间,恰恰是芯瞳最稀缺的资源。
| 维度 | 评分 (1-5) | 依据 |
|---|---|---|
| 芯片架构能力 | 3 | 17年GPU架构积累,统一渲染架构成熟,但停留在中低端,高端架构设计能力待验证 |
| 芯片工程能力 | 3 | GenBu01一次流片成功证明工程能力,但7nm是全新挑战 |
| 软件栈成熟度 | 2 | 图形API版本偏低,AI框架支持有限,驱动成熟度不足 |
| AI训练能力 | 1 | 现有产品几乎无AI训练能力,GB3000规划中 |
| AI推理能力 | 2 | CQ2040可跑轻量级模型(DeepSeek适配),但1.3 TFLOPS算力严重受限 |
| 图形能力 | 3 | 多屏显示亮点突出,但3D渲染性能落后,API版本偏低 |
| HPC能力 | 1 | 无HPC产品,无FP64能力 |
| 集群能力 | 1 | 无互联方案,无集群部署能力 |
| 生态能力 | 2 | 信创适配广但深度不足,AI生态薄弱 |
| 商业化能力 | 2 | 营收仅5000万,客户集中,品牌力弱 |
| 财务健康度 | 1 | 资不抵债,持续亏损,高度依赖外部融资 |
| 供应链安全性 | 3 | 前两代成熟制程安全,GB3000转向7nm风险骤增 |
| 未来成长性 | 2 | 高度依赖GB3000流片成功,不确定性极大 |
一句话总结:芯瞳半导体是中国GPU赛道中最具”技术长跑”精神的公司,但也是最接近”生死线”的公司——GB3000的流片结果将决定这家17年GPU老兵是”向上突破”还是”黯然退场”。其核心竞争力在于图形显示(尤其是多屏)和超低功耗设计,而非AI/HPC——这决定了它的天花板远低于华为昇腾、摩尔线程等”算力平台型”公司,但也在信创图形细分赛道中构建了独特的护城河。
注:芯瞳半导体的部分财务数据来源于大胜达公告及第三方分析,部分技术参数(尤其是GB3000)为规划值而非实测值,需待2026年Q3流片后进一步验证。公司公开披露的客户信息较少,具体客户名单需进一步核验。
同上
昆仑芯(北京)科技股份有限公司是百度孵化的AI芯片子公司,前身为百度智能芯片及架构部。2021年4月完成独立融资并正式运营,由百度芯片首席架构师欧阳剑出任CEO,首轮估值约130亿元人民币 [1]。
昆仑芯是国内 最早布局AI加速领域 的芯片企业之一,技术血脉可追溯至2011年百度的FPGA AI加速器项目。2017年在Hot Chips顶会上发布自研XPU架构,2018年推出第一代昆仑AI芯片,2020年量产 [3]。2021年独立运营后进入发展快车道——2024年第三代P800量产,2025年先后点亮万卡和3万卡集群,并中标中国移动十亿级AI服务器集采项目 [5]。
截至2026年,昆仑芯已完成D轮融资,投后估值约210亿元人民币(约29.7亿美元),百度持股约57.67% [7]。2026年1月以保密形式向港交所提交A1上市申请;同年5月启动科创板IPO辅导,走”A+H”双线上市路径 [9]。
一句话定位:昆仑芯是 中国出货量最大的独立AI芯片公司之一,也是 唯一同时具备自研架构、万卡集群部署经验、百亿级营收潜力 的互联网大厂孵化的AI芯片企业。它不是GPU,而是专门为AI训练和推理设计的XPU——一种介于GPU通用性和ASIC专用性之间的”AI-DSA”(领域专用架构)。
昆仑芯的核心团队呈现出 互联网工程化落地 的鲜明特征,与摩尔线程(NVIDIA系)、壁仞(华为海思/AMD系)等GPU出身的团队形成显著差异。
| 姓名 | 职位 | 关键背景 |
|---|---|---|
| 欧阳剑 | CEO | 北京航空航天大学学士、中科大硕士,2009年加入百度,历任首席芯片架构师、基础技术体系联席技术委员会主席 [11] |
| 崔轶 | 产品副总裁 | 安全宝联合创始人、产品副总裁 [13] |
| 冯景辉 | 研发副总裁 | 安全宝联合创始人、研发副总裁,前瑞星网络安全研发部项目经理 [13] |
欧阳剑是国内最早参与异构计算与硬件加速的工程师之一,从2010年就用FPGA做AI加速架构研发 [14]。他带领团队经历了百度内部从FPGA加速器小规模部署、到2017年超万片FPGA部署,再到自研芯片的完整闭环 [14]。这种”从业务中来,到业务中去”的经验,是纯学术或纯芯片背景团队所不具备的。
🤔 团队基因决定了昆仑芯选择XPU而非GPU路线——擅长的是”AI加速系统工程化”,而非”图形渲染管线设计”。这一判断在后续产品演进中得到了充分验证。
| 时间 | 里程碑事件 |
|---|---|
| 2011年 | 百度启动FPGA AI加速器项目 [16] |
| 2015年 | FPGA加速器部署规模突破数千片 [14] |
| 2017年 | Hot Chips发布自研XPU架构;FPGA加速器部署超1万片 [3] |
| 2018年 | 百度AI开发者大会发布第一代昆仑AI芯片(14nm三星工艺)[17] |
| 2020年 | 昆仑1量产,部署于百度搜索、小度等业务 [10] |
| 2021年3月 | 完成独立融资,首轮估值约130亿元,CPE源峰领投,IDG、君联、元禾璞华跟投 [18] |
| 2021年4月 | 昆仑芯(北京)科技有限公司正式成立,欧阳剑任CEO [18] |
| 2021年8月 | 昆仑芯2量产,7nm制程,XPU-R架构,128 TFLOPS@FP16 [19] |
| 2024年 | 昆仑芯3代P800量产,XPU-P架构,345 TFLOPS@FP16;出货6.9万片 [20] |
| 2025年2月 | 点亮国内首个自研万卡集群(P800)[22] |
| 2025年4月 | 点亮3万卡集群,位于宁夏 [23] |
| 2025年7月 | 完成D轮融资,募资约2.83亿美元,投后估值210亿元 [7] |
| 2025年8月 | 中标中国移动十亿级AI服务器集采项目,三个标包排名第一 [6] |
| 2025年11月 | 百度世界大会发布M100(2026年上市)和M300(2027年上市)路线图 [24] |
| 2025年12月 | 变更为股份公司,注册资本增至4亿元 [25] |
| 2026年1月 | 向港交所提交A1上市申请 [9] |
| 2026年5月 | 启动科创板IPO上市辅导 [10] |
资深架构师点评:昆仑芯的发展路径在国产芯片公司中 最具”正规军”气质——先在百度内部用FPGA跑通AI加速、再用自研芯片替代FPGA、再独立融资推向市场。这条”FPGA→自研ASIC→独立商用”的路径,与Google TPU的演进逻辑如出一辙。这也解释了为什么昆仑芯是国产AI芯片中 最早跑通万卡集群 的公司之一。
| 代际 | 产品系列 | 制程 | 架构 | 发布时间 | 典型算力 | 目标场景 |
|---|---|---|---|---|---|---|
| 昆仑1 | K100/K200 | 14nm (三星) | XPU | 2018发布/2020量产 | 64 TOPS@INT8 | 边缘推理、云端推理 |
| 昆仑2 | R100/R200/RG800 | 7nm | XPU-R | 2021量产 | 256 TOPS@INT8 / 128 TFLOPS@FP16 | 云端训练+推理 |
| 昆仑3 | P800 | 7nm (不确定) | XPU-P | 2024量产 | 345 TFLOPS@FP16 | 大模型训练+推理 |
| 昆仑4 | M100 | 未公开 | 未见详 | 预计2026年初 | 未公开 | 大规模推理优化 |
| 昆仑4 | M300 | 未公开 | 未见详 | 预计2027年初 | 未公开 | 超大规模多模态训练推理 |
来源:[19]
P800是昆仑芯当前的 主力交付产品,也是支撑其商业化突破的核心武器。
| 参数 | 规格 | 备注 |
|---|---|---|
| 架构 | 自研XPU-P | 100%自研,面向大模型优化 |
| FP16算力 | 345 TFLOPS | 对标NVIDIA A800/A100级别 [26] |
| 显存 | 未公开具体容量 | 官方宣称”比同类主流GPU高20%-50%” [29] |
| 显存类型 | GDDR6 | 非HBM,带宽512GB/s(昆仑2数据)[30] |
| 互联 | 芯片间200GB/s高速互联 [31] | 支持万卡级集群 |
| 推理性能 | 单机8卡2437 tokens/s (DeepSeek 671B) [32] | 业界领先的国产推理吞吐 |
| 训练能力 | 支持DeepSeek-V3/R1全参数训练 [33] | 5000卡单一集群可完成训练 [34] |
| 特殊能力 | 率先支持8bit推理,MoE友好 [29] | 对稀疏MoE模型效率优势明显 |
| 集群 | 已点亮3万卡集群,有效训练率>98% [35] | 国内首个自研3万卡集群 |
百度在2025年11月世界大会上公布了昆仑芯未来5年路线图,堪称国产AI芯片中 最雄心勃勃的公开规划:
关键信息:据财新报道,M系列芯片将 基于国产供应链打造[37]。这意味着昆仑芯正在从”商业最优”(台积电先进制程)转向”政企估值最优”(国产供应链可控),这是应对地缘政治风险的防御性布局。
昆仑芯的XPU架构在2017年Hot Chips首次公开,其设计哲学与GPU有根本性差异:
专利数据显示,昆仑芯在G06F9/50(任务调度/资源分配)领域的专利申请量最大(64件),贯穿2019-2025年,这恰恰是XPU区别于GPU的核心差异点 [38]。
| 架构 | 代际 | 核心特点 |
|---|---|---|
| XPU | 昆仑1 | 基础异构计算,SDNN神经网络引擎+Cluster集群计算单元 |
| XPU-R | 昆仑2 | SDNN+Cluster融合架构,通用性和性能显著提升,支持GDDR6 |
| XPU-P | 昆仑3/P800 | 100%自研,为大模型而设计,MoE架构友好,支持8bit推理 |
根据公开信息,昆仑芯片内部包含:
关键洞察:昆仑芯的架构设计非常务实——它不追求GPU的”全能”,而是聚焦AI负载中最耗时的算子(矩阵乘、卷积、注意力机制),通过专用硬件单元和智能调度在AI场景下实现比同代GPU更高的能效比。这种”AI-DSA”(AI领域专用架构)路线在推理场景尤为有效,但在训练灵活性和通用性上不如真正的GPGPU。
昆仑芯的软件栈包括以下核心组件:
| 组件 | 全称 | 功能 |
|---|---|---|
| XTDK | XPU Tool Development Kit | C/C++编译器,支持数据并行编程模型,允许指针操作和内联汇编 [41] |
| XTCL | XPU Tensor Compilation Library | 图编译引擎,AOT/JIT张量编译器,支持子图接入和全图编译 [42] |
| XDNN | XPU Deep Neural Network | 完全优化的算子库,包含BLAS等高级数学计算 [41] |
| Runtime | XPU Runtime | 运行时环境,设备管理,算子实现 [43] |
| SDK | 全栈软件开发套件 | 从底层驱动到上层模型转换的全栈工具 [44] |
| 框架 | 适配程度 | 备注 |
|---|---|---|
| 飞桨PaddlePaddle | ⭐⭐⭐⭐⭐ 深度集成 | 自2018年适配,III级兼容认证,一行代码切换设备 [45] |
| PyTorch | ⭐⭐⭐⭐ 良好 | 通过vLLM-Kunlun实现CUDA后端伪装,算子注册机制 [46] |
| TensorFlow | ⭐⭐⭐ 支持 | 通过XTCL子图接入 |
| ONNX | ⭐⭐⭐ 支持 | 标准模型格式支持 |
昆仑芯在2025年中国移动集采中,以”类CUDA生态”标段中标。这一定位的含义是:
资深架构师判断:昆仑芯的”类CUDA”策略是务实的——它不追求100%的CUDA二进制兼容(这在技术上几乎不可能,且存在法律风险),而是通过 框架层的适配 让开发者几乎无感切换。但这种策略的局限在于:严重依赖飞桨/PyTorch框架的持续适配,一旦离开这些框架,裸机编程或使用其他框架的开发者将面临巨大迁移成本。
昆仑芯软件生态的最大短板在于 独立性和开放性不足:
昆仑芯尚未上市,财务数据不透明,但综合多家媒体和券商研报:
| 指标 | 2024年 | 2025年(预测) | 2026年(预测) |
|---|---|---|---|
| 营收 | ~20亿元 | ~35-50亿元 | ~65-83亿元 |
| 净利润 | -2亿元(亏损) | 接近盈亏平衡 | 未公开 |
| 出货量 | 6.9万片 | ~13万片 | 未公开 |
| 外部客户占比 | ~40% | >50% | 未公开 |
来源:[48]
关键数据:根据IDC发布的2024年中国加速计算芯片出货报告,昆仑芯以6.9万片出货量排名国产第三(仅次于华为昇腾),在中国区所有厂商中位列第三(英伟达190万片第一,华为昇腾64万片第二)[54]。
昆仑芯的客户已从百度内部扩展至多个关键行业:
| 行业 | 典型客户 | 状态 |
|---|---|---|
| 互联网 | 百度(搜索、小度、文心一言)、vivo | 已有部署 |
| 运营商 | 中国移动(十亿级集采,三个标包第一) | 2025年中标 |
| 金融 | 招商银行(AI芯片项目,Qwen系列性能领先) | 已落地 |
| 能源电力 | 国家电网、南方电网 | 进入采购体系 |
| 制造业 | 中国钢研 | 已有部署 |
| 教育科研 | 同济大学、北京大学 | 规模化部署 |
| 汽车 | 吉利汽车 | 未明确 |
来源:[56]
昆仑芯通过服务器OEM/ODM合作伙伴交付:
| 轮次 | 时间 | 金额 | 估值 | 核心投资方 |
|---|---|---|---|---|
| 独立融资 | 2021年3月 | 未公开 | ~130亿元 | CPE源峰领投,IDG、君联、元禾璞华跟投 |
| A轮-C轮 | 2021-2024 | 未公开 | 持续增长 | 比亚迪、中信建投资本、君联资本、北京AI产业投资基金等 |
| C+轮 | 2024年 | 未公开 | 未公开 | 未公开 |
| D轮 | 2025年7月 | 2.83亿美元(约21亿元) | 210亿元 | 国新高层次人才基金、中移和创、比亚迪、中金观博等 |
来源:[63]
昆仑芯2025年D轮估值210亿元,与同期上市的寒武纪(A股市值超7000亿)、摩尔线程(上市后市值一度超2700亿)、沐曦(上市后市值一度超2700亿)相比,存在显著折价 [66]。
原因分析:
昆仑芯是 国内唯一 经历了互联网大规模核心算法考验的云端AI芯片——在百度搜索引擎、小度等业务中部署超过2万片 [68]。这种”自产自用”的闭环验证,是其他国产芯片公司无法复制的。
2025年上半年,昆仑芯先后点亮万卡和3万卡集群,有效训练率>98% [35]。这是国内首个自研3万卡集群——不是简单的硬件堆叠,而是涉及网络拓扑、散热、容错、调度等全栈工程能力。
在国产AI芯片创业公司中,昆仑芯的营收规模、客户质量和订单确定性均处于领先地位:
昆仑芯从设计之初就定位为AI加速器,不具备任何图形渲染能力。在需要GPU图形+AI推理的混合场景(如云游戏、数字孪生、AI辅助设计)中完全无法胜任。
尽管已适配PyTorch,但昆仑芯的软件栈 最优体验仅限于飞桨生态。对于非百度体系的开发者,工具链完善度、社区支持、文档质量与CUDA生态差距巨大。
昆仑芯的设计哲学偏向推理优化(异构调度),在大规模训练场景中,其通用性和灵活性不如真正的GPGPU架构。虽然P800支持DeepSeek全参数训练,但在更复杂的混合精度训练、动态图模式等场景下的表现,公开信息有限。
昆仑芯最大的商业悖论:它需要百度作为”超级客户”来验证产品和贡献营收,但同时百度子公司的身份限制了其他互联网大厂(如阿里、字节、腾讯)的采购意愿 [56]。任何竞争对手都不会愿意把自己的核心算力基础设施建立在”对手的芯片”上。
据企业专利观察报道,百度仍持有部分未完成转移的专利,两家公司之间的知识产权边界是否清晰,是上市审查的潜在风险点 [69]。2022年专利申请量仅46件,为整个专利库最低谷,这一年的研发投入压缩是否影响2024-2025年产品竞争力,也值得关注 [69]。
| 风险维度 | 具体风险 | 影响程度 |
|---|---|---|
| 先进制程 | 7nm以下代工依赖台积电,受美国出口管制影响 | 🔴高 |
| HBM | 昆仑2/3使用GDDR6而非HBM,带宽受限;若未来需要HBM则受限于SK海力士/三星供应 | 🟡中 |
| EDA工具 | 前端设计依赖Synopsys/Cadence,受管制风险 | 🟡中 |
| 国产供应链切换 | M系列转向国产供应链,可能面临良率低、性能下降的风险 | 🟡中 |
| 博通合作 | 后端物理设计可能依赖博通,地缘政治风险 | 🟢低(可替代) |
昆仑芯与博通的合作模式,根据公开信息推测为:博通协助后端物理设计(Physical Design)和部分IP授权,而非像Google TPU那样的深度定制合作 [72]。这种模式在国产芯片公司中较为常见(芯原股份也提供类似服务),风险相对可控,因为后端设计服务有多个替代供应商(芯原、世芯、GUC等)。
| 维度 | 昆仑芯 | NVIDIA | AMD | Intel |
|---|---|---|---|---|
| 产品定位 | AI-DSA (XPU) | 通用GPU (CUDA) | 通用GPU (ROCm) | AI加速器 (Gaudi) |
| 最接近竞品 | — | A800/A100(性能)、H20(市场定位) | — | Gaudi 3 |
| 架构哲学 | 异构任务调度 | SIMT大规模并行 | SIMT大规模并行 | 矩阵乘法+通用计算 |
| 图形能力 | 0 | 完整 | 完整 | 有限 |
| 编程模型 | XPU C/C++ | CUDA C/C++ | HIP C/C++ | oneAPI |
| AI框架优先 | 飞桨 > PyTorch | CUDA (PyTorch/TF) | ROCm (PyTorch) | oneAPI |
| 集群规模 | 3万卡 | 10万卡+ | 数千卡级 | 数千卡级 |
昆仑芯与NVIDIA的对应关系不应简单地理解为”P800对标A800”。更准确地说,昆仑芯P800在特定AI推理场景(尤其是MoE大模型推理)中可以达到甚至超越A800的性能/成本比,但在通用计算、图形渲染、科学计算、CUDA生态兼容性等方面差距明显。它更像是Google TPU v5的中国版本——一个高度优化的AI领域专用架构。
| 维度 | 判断 | 置信度 |
|---|---|---|
| 上市 | 2026年完成港股IPO,2027年完成科创板上市 | 高 |
| 营收 | 2026年达到65-83亿元,2027年突破100亿元 | 中高 |
| 技术路线 | M系列转向国产供应链,XPU架构持续迭代 | 高 |
| 市场地位 | 稳固国产AI芯片前三(与华为昇腾、寒武纪竞争) | 高 |
| 外部客户 | 外部客户占比超过70%,百度依赖度持续降低 | 中高 |
| GPU化 | 3年内不会推出图形GPU产品 | 高 |
昆仑芯最可能的发展路径是:成为”中国版Google TPU + 独立第三方AI芯片公司”的混合体。一方面继续深度服务百度内部AI算力需求(类似TPU对Google的角色),另一方面通过上市和外部客户拓展,逐步建立独立品牌——最终形成”百度核心客户+运营商+金融+能源”的多元客户结构。M系列芯片的国产供应链切换,将是决定其能否获得”信创”政策红利的关键一步。
| 维度 | 数据 |
|---|---|
| 成立时间 | 2021年4月(前身2011年) |
| 总部 | 北京 |
| CEO | 欧阳剑 |
| 控股股东 | 百度(中国)有限公司,约57.67% |
| 技术路线 | 自研XPU架构(AI-DSA),非GPU |
| 代表产品 | P800(第三代)、K100/K200(第一代)、R200/RG800(第二代) |
| 最新制程 | 7nm(P800),M系列转向国产供应链 |
| 2024年营收 | ~20亿元 |
| 2024年出货量 | 6.9万片(国产第三) |
| 2025年预计营收 | 35-50亿元 |
| 最新估值 | 210亿元(2025年7月D轮) |
| 万卡集群 | 已点亮3万卡集群(国内首个自研) |
| 上市状态 | 2026年1月提交港股A1,2026年5月启动科创板辅导 |
| 主要客户 | 百度、中国移动、招商银行、国家电网、南方电网 |
| 核心优势 | 14年业务验证、XPU差异化架构、3万卡集群能力、最快商业化 |
| 核心短板 | 非GPU、飞桨依赖、百度标签、训练能力待验证 |
同上
架构师注:由于“Previous Knowledge”已对瀚博半导体进行了极为详尽的深度分析(涵盖公司概况、创始团队、发展历程、产品系列、技术特点、软件生态、商业化、财务融资、核心竞争力、主要短板、供应链风险、与NVIDIA/AMD/Intel对应关系、未来3年判断等13个模块),以下内容聚焦于 新来源中补充的关键信息 和 对已有分析的批判性更新,避免重复已有内容。需完整了解瀚博半导体请参照前述深度分析。
根据最新辅导备案报告,瀚博半导体的法定代表人为杨勤富,注册资本5.43亿元,研发团队超500人,研发人员占比90%以上,硕士及以上学历超80%,核心成员平均从业超18年 [23296]。公司注册地在上海,在北京、深圳和多伦多设有研发分部 [23081]。
钱军的教育背景为上海交通大学本科、美国爱荷华大学计算机工程硕士 [23186]。其职业生涯始于思科(12年),2009年加入AMD担任Senior Director,曾带队设计量产了业界第一颗7nm图形处理器和第一颗7nm GPGPU架构的AI芯片,拥有40多款芯片设计和量产经验 [23199]。
张磊本科毕业于加拿大滑铁卢大学电子工程系,硕士毕业于多伦多大学计算机工程专业。2004年加入ATI(后被AMD收购),2013年成为AMD Fellow,全面负责AI加速、深度学习、视频编解码和视频处理领域 [23189]。
架构师评注:钱军+张磊的组合在国产GPU赛道中极为稀缺。尤其是张磊的AMD Fellow身份——这是AMD技术序列的最高荣誉,在国产GPU创业公司中凤毛麟角。这意味着瀚博在芯片架构层面的技术判断力有顶级人才保障。但需要指出的是,张磊的专长集中在 视频编解码和图像处理,而非大规模AI训练集群和互联架构——这可能部分解释了瀚博为何选择从AI推理而非训练切入。
| 时间 | 关键事件 |
|---|---|
| 2018年12月20日 | 瀚博半导体正式成立 [23329] |
| 2020年5月 | 首颗半定制7nm芯片交付客户流片 [23331] |
| 2021年6月 | SV102芯片测试成功,8分钟全部点亮,40小时内完成所有模块基础测试 [23113] |
| 2021年7月 | 发布首款服务器级AI推理芯片SV102及通用加速卡VA1 [23118] |
| 2021年12月 | 完成B1/B2轮共16亿元融资,引入阿里巴巴作为战略投资方 [23282] |
| 2022年9月 | 发布统一计算架构VUCA、载天VA10/VE1,预览SG100 [23088] |
| 2023年2月 | SG100 GPU芯片回片 [23089] |
| 2023年4月 | 完成第二代7nm全功能GPU芯片系列产品量产 [23089] |
| 2023年7月 | 正式发布SG100及6款新品 [23134] |
| 2025年4月 | 完成C++轮融资,引入盐城中韩产业园等地方国资 [23227] |
| 2025年7月11日 | 签署IPO辅导协议 [23466] |
| 2025年7月18日 | 正式进入辅导期 [23466] |
| 2025年10月 | 完成Pre-IPO轮融资(国泰君安创新投资、易方达、临港数科、经纬创投等) [23073] |
| 2025年12月30日 | 中信证券提交辅导工作完成报告,标志公司具备上市公司治理结构 [23304] |
架构师评注:从2025年7月签署辅导协议到12月完成辅导,仅用5个月——这一速度在国产GPU厂商中相当快。中信证券的辅导完成报告认为瀚博”具备成为上市公司应有的公司治理结构、会计基础工作、内部控制制度”,这意味着瀚博在2026年上半年登陆科创板的概率较高。
SV102芯片关键参数 [23109]:
载天VA10加速卡 [23131]:
载天VE1边缘加速卡 [23377]:
VA1L大模型加速卡 [23345]:
AIGC大模型一体机 [23338]:
VA12高性能生成式AI加速卡 [23345]:
VastStream软件平台关键特性 [23202]:
关于CUDA兼容性问题,新来源显示瀚博 不直接兼容CUDA,而是走自研VastStream路线 [23207]。这与摩尔线程的MUSA(类CUDA兼容)、沐曦的MXMACA等路线有明显区别。
架构师评注:瀚博的软件栈策略是”场景导向,而非CUDA导向”。早期SV100是DSA架构,天然不需要CUDA兼容——推理场景的模型经过编译优化后直接在VastStream上运行即可。但SG100作为全功能GPU推向市场后,缺乏CUDA兼容性在通用计算领域将成为显著障碍。不过钱军对图形API生态的判断是清醒的:图形渲染有标准API(DX/OpenGL/Vulkan),不像AI计算那样被CUDA深度绑定,先做好标准API兼容、再逐步完善AI软件栈的路径,在资源有限的情况下是务实的 [23149]。
关于客户采购的质疑:知乎匿名用户曾评论”某手投了瀚博却不采购,十分蹊跷” [23302]——这一说法 未经证实,但反映出市场对瀚博商业化落地的关注。需待IPO招股书披露后核验。
| 轮次 | 时间 | 金额 | 关键投资方 |
|---|---|---|---|
| A轮 | 2020年 | 约5000万美元 | 快手战投领投,红点创投、五源资本等 |
| A+轮 | 2021年4月 | 5亿元 | 中网投、经纬中国联合领投 |
| B1/B2轮 | 2021年12月 | 16亿元 | 阿里巴巴、人保资本、经纬创投、五源资本联合领投 |
| C轮 | 2024年 | 未披露 | 阿里巴巴、经纬创投、红点中国、真格基金、五源资本、耀途资本、未来资产 [23293] |
| C++轮 | 2025年4月 | 未披露 | 盐城中韩产业园、灏瀚芯图、青岛赛富皓海等地方国资 [23227] |
| Pre-IPO轮 | 2025年10月 | 数亿元 | 国泰君安创新投资、易方达、临港数科、经纬创投 [23073] |
累计融资:6轮超25亿元 [23227]。
估值:2024年100亿元,2025年105亿元(胡润全球独角兽榜,排名第898位)[23228]。
股权结构:钱军(直接持有+通过KJQ LP间接持有)与张磊(通过VASTAI Holding Company间接持有),通过17家员工持股平台合计控制公司42.1465%的表决权,二人签署一致行动协议,为公司共同实际控制人。无直接持股30%以上的单独股东主体,无控股股东 [23235]。
完整股东阵容:中国互联网投资基金、快手、阿里巴巴、经纬中国、招商局资本、五源资本、真格基金、耀途资本、联发科、基石资本、天狼星资本、红点创投、赛富投资基金、人保资本、海通开元、慕华科创、盐城中韩产业园、灏瀚芯图、青岛赛富皓海等 [23285]。
架构师评注:瀚博的股东阵容堪称国产GPU赛道中最”豪华”的之一——阿里+快手+联发科三大产业资本同时加持,在国产GPU公司中”独此一家”。联发科的入股尤其值得关注:联发科本身在手机/平板SoC中集成了ARM Mali GPU,但并不直接参与数据中心GPU市场。联发科投资瀚博,可能意味着其看到了云端GPU与其边缘/终端芯片生态的协同机会(如云游戏场景),也可能纯粹是财务投资。无论如何,三大产业资本的同时背书,为瀚博的IPO定价提供了有力支撑。但估值105亿元对应的市销率(P/S)——如果年营收不到10亿元,则P/S超过10倍,在半导体行业属于偏高估值,需要强劲增长来支撑。
CTO张磊在公开场合透露了瀚博未来五年的规划 [23283]:
架构师评注:张磊”大模型收敛了”的表述值得玩味——这暗示瀚博判断大模型预训练(Scaling Law驱动)的军备竞赛可能进入平台期,而推理需求将接棒成为主力增长点。这与瀚博”不做训练、专注推理和渲染”的战略定位高度一致,也意味着瀚博判断自身在训练侧”不参与”的损失在变小。
瀚博两代芯片(SV100系列、SG100)均采用7nm制程,代工厂推测为台积电 [23089]。2024年11月台积电暂停向中国大陆供应7nm及更先进制程的AI/GPU芯片后,瀚博面临与所有国产7nm GPU厂商相同的供应链风险 [23241]。
有知乎匿名用户评论称”跟瀚博的聊过,感觉瀚博的创始人不是太懂新技术也不太清楚英伟达的玩法,更喜欢用AMD里的老技术” [23302]。这一评论 未经证实,来源匿名,权威性极低,但从中可以提取一个值得关注的角度:钱军和张磊的GPU经验主要来自AMD体系,这既是瀚博的基因优势(7nm量产经验),也可能形成某种”路径依赖”——在AI训练集群、互联架构等NVIDIA主导的领域,团队经验相对薄弱。这与瀚博选择”不做训练、专注推理和渲染”的战略方向一致,与其说是”不懂新技术”,不如说是基于自身基因的务实选择。
| 维度 | 已有分析 | 新来源补充/修正 |
|---|---|---|
| 研发人员占比 | 80%以上 | 90%以上 [23296] |
| 硕士及以上学历占比 | 70%+ | 80%+ [23296] |
| 注册资本 | 5.43亿元 | 确认 [23296] |
| 法定代表人 | 未提及 | 杨勤富 [23296] |
| 辅导完成时间 | 2025年12月 | 2025年12月30日提交报告 [23304] |
| 辅导期融资 | 未提及 | 第一期辅导期间完成一轮新融资,部分股东股份转让 [23466] |
| 募投项目 | 未提及 | 尚未最终确定,辅导机构正协助规划 [23466] |
| 未来五年规划 | 未详细提及 | 云端渲染商业化、大模型推理适配(DeepSeek/Qwen)、边缘AI [23283] |
综合新来源信息,对瀚博半导体的核心判断维持不变,部分增强:
IPO确定性增强:2025年12月已完成辅导,中信证券出具肯定意见,2026年上半年登陆科创板的概率较高 [23304]。
“不做训练”路线更加清晰:张磊”大模型收敛了”的判断和未来五年规划中”着重推理适配和优化”的表述,进一步确认瀚博不参与大模型预训练竞争的战略定位 [23290]。
股东阵容确认:阿里+快手+联发科三大产业资本同时加持,辅以中网投等国家队,形成产业协同+政策支持+市场验证的三重背书 [23285]。
商业化能力仍待验证:两代产品已量产,但具体客户数量和出货量公开资料有限,知乎匿名评论虽不具权威性,但反映了市场对商业化实质的关注 [23302]。
供应链风险依旧:7nm断供背景下,瀚博的现有产品线和下一代产品研发均面临制程供应不确定性 [23249]。
关于营收/财务数据、客户具体出货量、SG100完整技术规格等关键信息,公开资料有限,需待瀚博半导体IPO招股书披露后进一步核验。
同上
定位:中国GPU赛道中”履历最豪华、命最硬”的传奇玩家——创始人唐志敏是龙芯一号/二号首席科学家、海光信息缔造者,堪称中国芯片界”活化石”级人物。公司从估值150亿的”独角兽”到2024年8月濒临解散、400人团队原地失业,再到2025年2月靠南孚电池母公司安孚科技”续命”复活,2026年5月再获智路资本领投、签约中信建投冲刺IPO——这出”濒死复生”的剧本,在中国半导体创业史上绝无仅有。
核心判断:象帝先是国产GPU赛道中最具”戏剧性张力”的公司。它的核心竞争力在于唐志敏本人的行业号召力和团队的双重CPU+GPU基因,但技术路线选择——基于Imagination Technologies IP授权而非全自研架构——使其在”自主可控”叙事上存在根本性张力。伏羲A0作为全球首款量产IMG DXD架构GPU,160 TFLOPS FP32的纸面性能令人瞩目,但Imagination移动GPU基因的性能天花板和驱动生态薄弱,是两道绕不过去的坎。2026年冲刺IPO是象帝先的”终局考验”——成了,它是国产GPU”不死鸟”;败了,可能是中国GPU泡沫最惨烈的注脚。
象帝先计算技术(重庆)有限公司(Xiangdixian Computing Technology)成立于2020年9月29日,是一家高性能通用/专用处理器芯片设计企业,总部注册于重庆,已在北京、上海、成都、苏州、合肥、深圳六地布局研发中心 [23508]。公司定位为”国产通用GPU自主研发领创企业”,方向覆盖桌面、工作站、服务器、边缘计算等场景 [23505]。
“象帝先”之名出自《道德经》“吾不知谁之子,象帝之先”——取”在天地之先”之意,寓意在中国GPU产业中做”第一个” [23683]。公司已取得国家发明专利授权百余件 [23508]。
截至2025年,公司团队经历大幅收缩后维持核心力量约百余人(2024年8月危机前超400人),核心成员来自海光、NVIDIA、AMD等企业,平均从业经验超15年 [23500]。
象帝先的底色是”传奇”与”戏剧性”并存。唐志敏的履历放在中国芯片圈几乎是”开挂”级别——龙芯一号二号首席科学家、海光信息创始人兼总裁、中科院计算所主任研究员。这个级别的创始人带着”CPU老兵做GPU”的故事出来融资,估值150亿并不令人意外。但GPU终归不是靠一个人就能做成的生意——后面的故事,比任何一部商战剧都精彩。
象帝先的创始团队核心是唐志敏——中国芯片产业少有的”双料冠军”。
| 角色 | 姓名 | 背景 |
|---|---|---|
| 创始人/董事长/CEO | 唐志敏 | 中科院计算所工学博士,南京大学理学学士。中科院计算所主任研究员、博士生导师。2000-2006年任中科院知识创新工程”龙芯CPU”重大项目负责人,龙芯一号、二号首席科学家,被业内称为”龙芯之父”之一 [23550]。2016-2019年兼任海光信息技术有限公司总裁,主导海光CPU研发并推动AMD x86技术授权谈判,为海光成为信创CPU龙头奠定关键基础 [23550]。2020年从海光退出后创立象帝先。2023年11月起兼任深圳理工大学算力微电子学院院长 [23559]。2024年因公司资金危机与公司一同被列为被执行人,被限制消费 [23632] |
| 常务副总裁 | 张珩 | 代表公司对外发声的主要高管,负责市场与生态合作 [23669] |
| 核心团队 | 来自海光、NVIDIA、AMD等 | 象帝先官方称核心成员平均从业经验超10年,是国内少数同时具备CPU与GPU双研发经验的团队 [23668] |
唐志敏的行业地位:在中国芯片界,唐志敏属于”第一代”人物。2001年,胡伟武向师兄唐志敏立下军令状”一两年之内不把通用操作系统引导成功,提头来见”,由此开启了龙芯项目 [23552]。2014年中科院参设海光信息,2015年唐志敏上任负责人,随后主导了海光与AMD的x86技术授权合作——这一决策使海光成为今天信创CPU市场的核心玩家 [23551]。2019年海光上市前唐志敏退出,2020年以55岁之龄”再创业”做GPU [23554]。
唐志敏的履历在国内GPU创业公司创始人中独一档。龙芯和海光两个项目的成功,证明了他不仅懂技术,更懂”怎么做成一颗芯片”。但问题在于,55岁的二次创业,他面对的是一个比CPU更卷、更烧钱、更依赖生态的赛道。唐志敏的”老兵光环”能吸引资本,但GPU的残酷之处在于——它不相信资历,只相信产品。
| 时间 | 里程碑 |
|---|---|
| 2020年9月 | 象帝先正式成立,获重庆两江产业发展集团等国资天使轮投资 [23551] |
| 2021年1月 | 重庆、北京、成都、上海、苏州五地全面运作 [23513] |
| 2021年3月 | 第一款GPU芯片项目PANGU A0(天钧一号)立项 [23712] |
| 2022年6月 | PANGU A0流片,比原计划提前5个月 [23513] |
| 2022年9月 | ”天钧一号”GPU在重庆两江新区正式发布,300+研发人员历时15个月完成 [23506] |
| 2023年1月 | 天钧一号通过工信部CSIP认证性能测试,性能达NVIDIA GTX 1660水平 [23721] |
| 2023年3月 | 正式加入国家信创工委会 [23885] |
| 2023年4月 | 完成A轮超亿元融资 [23513] |
| 2023年6月 | 天钧一号芯片量产 [23884] |
| 2023年9月 | 天钧二号GPU发布,面向工控、嵌入式、边缘计算 [23520] |
| 2023年 | 累计完成A轮、A+轮、B轮等多轮融资,共14个投资方参与 [23514] |
| 2024年4月 | 入选”重庆市2024年度独角兽企业”,估值高达21.69亿美元(约150亿人民币)[23513] |
| 2024年5月 | 披露获芯能创投B+轮融资 [23513] |
| 2024年8月 | 传闻B轮对赌(满5亿元)失败,遭股东起诉,账户冻结。8月30日全员会议宣布解散,约400人被裁 [23517] |
| 2024年9月 | 公司发布澄清公告,否认解散清算,承认”人员优化”,同时与首都在线有约1881万元诉讼未结 [23669] |
| 2024年12月26日 | 宣布”融资启新,韧者终迎芯片曙光”,新一轮融资有重大进展 [23521] |
| 2025年2月 | 完成数亿元战略融资,引入A股上市公司安孚科技(603031,南孚电池母公司)及多家创投机构 [23515] |
| 2025年2月 | 天钧一号完成DeepSeek模型兼容适配 [23535] |
| 2025年8月 | 安孚科技互动平台披露:伏羲架构芯片已于6月回片点亮,功能与性能达预期 [23503] |
| 2025年9月 | 安孚科技披露:伏羲架构5nm GPU完成流片验证,160 TFLOPS FP32,12GB HBM2,已适配《黑神话:悟空》[23571] |
| 2025年11月 | ICCAD-Expo 2025展出伏羲A0显卡,全球唯一量产IMG DXD架构产品,支持光追 [23579] |
| 2026年4月 | 签约中信建投证券,全面启动IPO筹备 [23692] |
| 2026年5月8日 | 新一轮融资首批签约,智路资本、钧鑫投资联合领投,广州粤港基金等跟投 [23689] |
| 2026年5月 | 明确年内完成股份制改造,加速IPO [23687] |
象帝先的发展史,是中国GPU创业浪潮”冰与火之歌”的缩影。从2020年成立到2024年4月估值150亿,只用了不到4年。但150亿估值到濒临解散,只用了4个月。对赌失败、股东诉讼、账户冻结、员工欠薪——这是一个教科书级别的”半导体创业风险案例”。而2025年2月安孚科技入局后的”复活”,又让这个故事多了一层”白马骑士”的戏剧性。纵观全程,象帝先的技术节奏其实不慢——15个月完成天钧一号流片,两年内推出伏羲架构——但商业化的节奏完全跟不上烧钱的速度,这是致命伤。
象帝先已完成三代产品:天钧一号(Pangu)、天钧二号(Pangu)、天钧三号(Fuxi),正在推进伏羲系列量产和神农系列预研 [23711]。
产品矩阵总览:
| 产品 | 架构 | 制程 | 核心规格 | FP32算力 | 显存 | 目标市场 | 状态 |
|---|---|---|---|---|---|---|---|
| 天钧一号 (XDX X1900/R1900/151/121) | 盘古(IMG B/C系列IP) | 12nm | 2048计算核心 | 4 TFLOPS | 16GB GDDR6, 256GB/s | 桌面/工作站/信创 | 2023.06量产 [23531] |
| 天钧二号 | 盘古 | 12nm | 1024计算核心 | ~2 TFLOPS(估计) | 最高8GB GDDR6, 128GB/s | 工控/嵌入式/边缘 | 2023.09发布,量产信息有限 [23590] |
| 天钧三号 | 伏羲 | — | — | — | — | — | 已量产 [23711] |
| 伏羲 A0 | 伏羲(IMG DXD IP) | 5nm | IMG DXD架构 | 160 TFLOPS | 12GB HBM2 | 高端图形渲染/游戏 | 2025年流片验证完成,量产中 [23571] |
| 伏羲 B0 | 伏羲(GPU+NPU融合) | 先进制程 | GPU+NPU异构,FP8 | — | — | AIPC/端侧AI推理 | 2025年流片阶段 [23574] |
| 神农 A0 | 神农(预研) | 先进制程 | 下一代架构 | 对标国际高端 | — | 高端GPU | 预研中 [23786] |
产品卡形态:
| 型号 | 形态 | 定位 |
|---|---|---|
| XDX X1900 | 服务器卡 | 数据中心/云桌面 |
| XDX R1900 | 工作站显卡 | 专业工作站 |
| XDX 151 | 桌面显卡 | 桌面办公 |
| XDX 121 | 桌面显卡 | 入门桌面 |
象帝先的产品线在国产GPU中属于”最像显卡公司”的——从服务器卡到桌面显卡,从高端渲染到端侧AI,形态完整。但一个关键事实是:这些产品全部基于Imagination Technologies的GPU IP授权。天钧系列基于IMG B/C系列IP,伏羲A0基于IMG DXD架构 [23579]。这意味着象帝先本质上是一家”IMG IP集成商”而非”GPU架构原创者”。虽然公司宣传”完全自主知识产权”,但业内人都清楚,基于第三方IP授权做SoC集成和从零设计GPU架构,是两种完全不同的能力层次。当然,这不是象帝先一家的问题——国内相当比例的”GPU公司”走的都是IMG授权路线。
架构本质:Imagination IP + 象帝先集成
象帝先的技术路线核心是:获得Imagination Technologies的GPU IP永久架构授权(据称是B系列和C系列,后升级为DXD架构),在此基础上进行SoC集成、驱动开发和生态适配 [23649]。这种模式的优势是大幅缩短了研发周期——天钧一号从立项到流片仅15个月,比完全自研快得多。但劣势是:核心GPU架构受制于IMG的进化节奏,无法在架构层面做根本性创新。
天钧一号技术特点:
伏羲A0技术特点:
伏羲A0的160 TFLOPS FP32纸面参数相当惊人——作为对比,NVIDIA RTX 4090是约83 TFLOPS FP32,RTX 5090据传约100+ TFLOPS。但这里有一个关键疑点:IMG DXD架构的FP32算力能否在实际应用中有效释放?Imagination的GPU架构历史上以移动端能效比见长,但在桌面级高性能场景缺乏大规模验证。而且160 TFLOPS这个数字 目前仍属传闻级别,安孚科技官方披露仅确认”流片验证完成”和”核心技术指标达国际主流水平”,未公布精确算力数据 [23575]。⚠️ 需进一步核验。
象帝先的软件生态建设在国产GPU中属于”中规中矩但有亮点”:
图形API兼容性:
AI框架适配:
国产CPU/OS生态:
合作伙伴生态:
驱动成熟度:⚠️ 需进一步核验
有业内观察人士指出,象帝先的GPU驱动质量是”国产显卡的通病”——“始于期待,陷于PPT,终于驱动” [23832]。京东零售渠道已有象帝先显卡在售,但用户评价信息有限 [23844]。驱动的稳定性、兼容性和性能优化程度,目前缺乏独立的第三方评测数据。
象帝先的软件生态在国产GPU中处于”中等偏上”位置。飞桨III级认证是亮点,说明AI推理的适配深度不错。但图形驱动的成熟度仍然是国产GPU的阿喀琉斯之踵——尤其是基于IMG IP做驱动开发,需要同时面对IMG底层驱动的限制和上层应用兼容性的挑战。这也是为什么”跑通《黑神话:悟空》“会被当作新闻——在NVIDIA/AMD的世界里,显卡能跑游戏是”基本操作”,在中国GPU的世界里却是”里程碑”。
目标市场:
已知客户/合作伙伴:
商业化现状评估:⚠️ 公开信息有限
天钧一号于2023年6月量产,天钧二号于2023年9月发布后未见明确量产信息 [23884]。天钧系列在信创市场实现”批量出货” [23716],但具体出货量从未公开披露。有分析指出,象帝先”在信创领域的落地始终未能有实质性突破” [23889]。
公司产品已出现在京东零售渠道,面向个人消费者销售 [23844]。但零售端的销量、用户反馈等数据公开信息极为有限。
象帝先的商业化是它最大的”黑箱”——公司从未披露过具体营收数据和出货量。2024年8月危机爆发的直接原因是”自我造血能力有限”+“外部融资中断” [23679]。一家估值150亿的公司,却因为融不到5亿就濒临倒闭——这说明自有现金流几乎为零,商业化收入远不足以支撑运营。伏羲A0的5nm量产能否打开局面,是象帝先商业化的”生死手”。
象帝先的资本故事堪称中国GPU创业史上最戏剧性的篇章。
融资历程:
| 时间 | 轮次 | 金额 | 投资方 | 备注 |
|---|---|---|---|---|
| 2020年 | 天使轮 | 未披露 | 重庆两江产业发展集团等国资 | 成立同年完成 [23641] |
| 2022-2023年 | A轮/A+轮/B轮/B+轮 | 累计约25亿元 | 14个投资方,含中信集团、芯能创投等 | [23514] |
| 2024年4月 | — | — | — | 入选重庆市独角兽,估值21.69亿美元(约150亿人民币)[23513] |
| 2024年8月 | — | — | — | B轮对赌(满5亿元)失败,遭股东起诉 [23519] |
| 2025年2月 | 战略融资 | 数亿元 | 安孚科技(603031)+多家VC | 安孚通过子公司启睿芯超持股6.9% [23525] |
| 2026年5月 | 新一轮 | 未披露 | 智路资本、钧鑫投资联合领投,广州粤港基金等跟投 | [23689] |
估值变化:
财务状况:⚠️ 公开信息有限
象帝先的财务健康度在国产GPU公司中处于”ICU级别”。从150亿估值到账户冻结,只用了不到半年。一家公司因为融不到5亿对赌资金就濒临解散,说明两个问题:一是烧钱速度极快(400人团队+5nm流片+多地研发中心),二是商业化收入几乎可以忽略不计。安孚科技和智路资本的入局给了象帝先”续命钱”,但IPO前能否建立起可持续的商业模式,是比上市本身更根本的问题。
创始人IP——唐志敏的行业号召力:唐志敏是中国芯片界为数不多的”双料成功创业者”——龙芯CPU创始人之一+海光信息缔造者。这一履历在融资、人才招募、政府关系、产业合作中具有不可替代的信用背书价值 [23550]。
CPU+GPU双基因团队:核心团队来自海光(CPU)和NVIDIA/AMD(GPU),是国内少数同时具备CPU和GPU研发经验的团队。这种”双重视角”在芯片架构设计和系统级优化中具有独特优势 [23494]。
IMG IP授权带来的”快车道”:基于Imagination的永久架构授权,象帝先实现了极快的产品迭代节奏——天钧一号15个月流片,伏羲架构两年内完成。这比完全自研架构的公司快了一到两个产品周期 [23649]。
图形渲染的差异化定位:在大多数国产GPU公司扎堆AI训练/推理的背景下,象帝先坚持”图形渲染+端侧AI推理”路线,伏羲A0是全球首款量产的IMG DXD架构GPU,支持光追和超分辨率 [23579]。这使其在信创图形显示和国产游戏适配领域建立了差异化。
“不死鸟”般的生存韧性:从2024年8月濒临解散到2025年2月融资复活,再到2026年冲刺IPO,象帝先展现了惊人的”求生欲”和资本运作能力。这种”死过一次”的公司在团队凝聚力上反而可能更强。
IP授权依赖——“自主可控”存疑:核心技术基于Imagination GPU IP授权,而非自研GPU架构。这意味着象帝先在GPU核心微架构层面没有自主迭代能力,产品性能天花板受限于IMG IP的进化速度 [23649]。IMG的GPU架构历史上以移动端为主,在桌面级高性能场景存在天然的性能天花板。
AI能力薄弱:天钧一号的AI算力仅16 TOPS(INT8),比很多NPU芯片都低。有前员工直言”Imagination的IP核心针对的是移动平台,AI能力聊胜于无” [23884]。伏羲B0虽有GPU+NPU融合设计,但端侧AI推理市场极为拥挤(高通、联发科、苹果、华为海思等),象帝先几乎没有任何先发优势。
商业化未经验证:经过四年多发展,公司商业化收入仍”可以忽略不计”。信创市场虽有批量出货,但量与价均未公开,且面临景嘉微、摩尔线程、芯瞳等更成熟的信创GPU厂商的竞争 [23889]。
财务极度脆弱:累计融资约25亿元,却因融不到5亿对赌资金陷入绝境。烧钱速度与商业化收入严重不匹配,IPO前仍需大量资金支持5nm量产和生态建设。
驱动与软件生态不成熟:图形驱动的稳定性、兼容性、性能优化程度缺乏独立验证。虽然API兼容性”纸面上”完整,但实际运行复杂3D应用和游戏的体验,与NVIDIA/AMD差距巨大。
团队稳定性存疑:2024年8月裁掉约400人,核心团队之外的研发力量大幅削弱。虽然公司声称”老员工表达了强烈的回归意愿” [23528],但实际回流情况不明。
象帝先的供应链风险在国产GPU公司中属于 极高 级别:
5nm制程(伏羲A0):仅台积电和三星可量产。美国2024年11月升级出口管制,要求台积电切断与中国大陆公司的7nm及以下AI芯片代工合作 [23763]。象帝先的伏羲A0采用的是5nm工艺,且明确涉及AI和图形渲染,受制裁风险极高。虽然目前已完成流片验证,但后续量产能否持续,取决于美国出口管制政策的具体执行细则。
12nm制程(天钧系列):台积电或三星代工。12nm不在当前最严制裁范围内,但若地缘政治进一步升级,不排除被波及。
HBM2显存(伏羲A0):HBM供应链高度集中(SK海力士、三星、美光),且受美国出口管制影响。2025年美国已将HBM纳入对华出口限制范围 [23764]。
IMG IP授权:Imagination Technologies虽为中资(凯桥基金)控股,但总部和主要研发仍在英国,受英国和欧盟出口管制法规约束。若地缘政治恶化,IMG IP授权可能面临合规风险 [23649]。
国内替代路径:若台积电断供,中芯国际目前无法提供5nm/7nm量产能力,仅能提供14nm/12nm。象帝先的高端产品线将面临”无厂可代”的困境。
象帝先的供应链风险可以用一句话概括:伏羲A0的5nm工艺和HBM2显存,让它站在了美国出口管制”枪口”的正前方。 流片验证成功不代表量产可持续——台积电随时可能因政策变化中断合作。相比之下,天钧系列的12nm产品线虽然风险较低,但性能仅GTX 1660水平,在市场上缺乏竞争力。
| 象帝先产品 | 对标产品 | 对标维度 | 差距评估 |
|---|---|---|---|
| 天钧一号 (12nm, 4 TFLOPS) | NVIDIA GTX 1660 (12nm, ~5 TFLOPS) | 桌面图形渲染 | 接近,但驱动和生态差距大 |
| 天钧二号 (12nm, ~2 TFLOPS) | NVIDIA GT 1030 / Intel Iris Xe | 嵌入式/工控图形 | 功能可对标,性能接近 |
| 伏羲A0 (5nm, 160 TFLOPS传闻) | NVIDIA RTX 4090 (~83 TFLOPS) / RTX 5090 | 高端图形渲染 | 纸面算力高,实际性能需验证 |
| 伏羲B0 (GPU+NPU) | Intel Meteor Lake (CPU+GPU+NPU) / AMD Ryzen AI | AIPC端侧推理 | 生态差距巨大 |
技术路线对应关系:
象帝先在国际上没有一个完全对应的公司。它既不是NVIDIA/AMD那样的全栈自研GPU公司,也不是简单的GPU IP授权客户。它试图走一条”基于IMG IP做高端桌面GPU”的路径——这条路在全球范围内几乎没有成功先例。IMG的GPU架构在移动端(特别是苹果A系列芯片时代)有过辉煌,但从未在桌面级高性能GPU市场证明过自己。象帝先在做的,本质上是一个”IMG GPU架构的桌面化/服务器化”实验。
2026年:
2027年:
2028年:
核心判断:象帝先的未来三年可以用”过三关”来概括——第一关(2026)是IPO关,能否成功上市决定了公司能否获得长期资金支持;第二关(2027)是商业化关,5nm伏羲A0能否打开市场决定了公司能否摆脱”纯融资驱动”模式;第三关(2028)是架构关,神农架构能否实现从IMG IP到自研的跨越,决定了公司是”中国的IMG显卡集成商”还是”真正的GPU公司”。三关全过,象帝先可能成为国产GPU赛道的重要玩家;过不了其中任何一关,都可能被淘汰。考虑到2024年已经历过一次”濒死体验”,象帝先的”容错率”极低。
本节关键事实待核验清单:
同上
登临科技(Denglin Technology)成立于2017年底,总部现位于苏州工业园区,2025年完成股份制改造,更名为“苏州登临科技股份有限公司”[23948]。公司是国内首家完全凭借自主创新实现规模化商业落地的通用GPU/GPGPU企业,其核心标签是“GPU+”——一种基于GPGPU的软件定义片内异构计算架构[23949]。
旗舰产品Goldwasser(高凛)系列于2021年量产,是国内首个规模量产的GPGPU高性能通用AI加速器[23985]。第二代Knuth(纳适)系列面向边缘AI及大模型推理,已开始随合作伙伴一体机出货[23983]。截至2026年,登临科技已完成多轮融资,投资方包括中国互联网投资基金(中网投)、高通创投、光远资本等,估值约150亿元人民币(第三方估算,非官方披露)[24114]。公司被列为“中国独角兽”企业,张江高科、中新集团、东微半导等A股上市公司均持有其股权[24114]。
一句话定位:登临是国产GPU赛道中差异化的“能效优先”选手——不追求峰值算力对标NVIDIA旗舰,而是通过片内异构架构在同等功耗下提供3倍以上能效比,以“硬件兼容CUDA”降低迁移成本,主攻AI推理和边缘计算[23947]。
登临的团队基因深植于GPU IP授权领域,这在国内GPU创业公司中独一无二。
| 姓名 | 职位 | 关键背景 |
|---|---|---|
| 李建文 | 创始人兼CEO | 清华大学微电子所本科、无线电系硕士,GPU领域30年+;前图芯科技(Vivante)副总裁,负责的GPU IP产品被卖给飞思卡尔、英特尔、美满、谷歌、三星、诺基亚、大华等[24002] |
| 王平 | 联合创始人 | 清华大学本硕,与李建文共同创办登临[24004] |
| 王震宇 | 联合创始人 | 多次代表登临对外发声,拥有多项GPU架构专利(如CN115687197B)[23943] |
| 王晨辉 | 联合创始人 | 在云栖大会等场合代表登临发表技术演讲,强调能效优势[23947] |
| 杨剑 | 全球运营副总裁 | 曾任华为全球供应链副总裁,为登临带来供应链管理经验[24004] |
🧬 团队基因解读:李建文在图芯的IP授权经验,让他深刻理解GPU的通用性价值和能效痛点。登临选择“硬件兼容CUDA + 架构创新提升能效”,本质上是将IP授权时代的“通用性设计思维”与“差异化创新”融合[24019]。团队在硅谷、成都、杭州等设有七个研发中心,工程化落地能力较强[24004]。
| 时间 | 里程碑事件 |
|---|---|
| 2004年 | 图芯科技(Vivante)成立,李建文担任副总裁[24152] |
| 2015年 | 芯原股份全资收购图芯,GPU IP并入芯原[24389] |
| 2017年11月 | 登临科技成立于上海临港[23949] |
| 2018-2020年 | 专注研发,完成GPU+架构设计和Goldwasser流片;李建文花半年时间走访几十个客户,明确以能效为突破口[24003] |
| 2020年Q3 | Goldwasser首款产品量产,开始与互联网、安防龙头企业集成测试[23994] |
| 2021年 | Goldwasser正式量产投放市场;完成A+轮融资[23957] |
| 2022年 | 销售过万片,获数万片客户订单,批量量产交付;发布“登临瀚海”生态合作伙伴计划;Goldwasser与飞桨完成II级兼容性测试[23950] |
| 2023年7月 | 完成C轮融资,中网投独家投资[23923] |
| 2024年 | 长电科技为登临等企业提供Chiplet封装服务(良率90%)[24081] |
| 2025年1月 | 完成新一轮战略融资,高通创投与光远资本持续加持[23924] |
| 2025年6月 | 与此芯科技、半微科技联合推出基于KS20的边缘AI一体机[23983] |
| 2025年 | KS系列GPU全面适配MiniMax M2.5大模型[24066];深度赋能华北区域智算中心(石家庄)[23948] |
| 2025年 | 完成股份制改造,变更为“苏州登临科技股份有限公司”[24298] |
资深架构师点评:登临没有走“对标NVIDIA”的模仿路线,而是从客户痛点出发,在2018年就判断推理能效是核心需求。这一判断在2024-2025年AI推理需求爆发时被充分验证,但其训练能力薄弱的短板也日益突出[23947]。
| 代际 | 产品系列 | 制程 | 架构 | 量产/发布时间 | 典型算力 | 目标场景 |
|---|---|---|---|---|---|---|
| 第一代 | Goldwasser UL | 12nm(推测) | GPU+ | 2021 | 32-64 TOPS@INT8 | 边缘推理 |
| 第一代 | Goldwasser L | 12nm | GPU+ | 2021 | 128-256 TOPS@INT8 | 云端推理 |
| 第一代 | Goldwasser XL | 12nm | GPU+ | 2021 | 512 TOPS@INT8 | 数据中心训推一体 |
| 第二代 | Knuth KS20 | 未公开 | GPU+ | 2025 | 1 TFLOPS@FP32 | 边缘AI/推理 |
| 第二代 | Knuth KS系列 | 未公开 | GPU+ | 待确认 | 未公开,针对Transformer优化 | 大模型推理/生成式AI |
来源:[24024]
关键信息:KS20已随此芯科技一体机商用,但数据中心级Knuth高端产品(如对标Goldwasser XL的升级版)具体参数尚未公开,制程节点也未披露,需进一步跟踪[23983]。
登临的GPU+是一种 软件定义的片内异构计算体系:在GPU内同时集成GPGPU可编程引擎和专用张量计算引擎,通过高维度调度器动态分配计算资源,让不同效率的核各司其职[24042]。
传统GPU的所有计算都用统一的CUDA Core执行,AI计算效率低。NVIDIA的Tensor Core是紧耦合异构,而登临的GPU+实现了 松耦合的片内异构,调度引擎可在更高抽象维度上控制算力分配,降低外部带宽依赖[24048]。
| 特性 | 描述 | 技术意义 |
|---|---|---|
| 片内异构 | GPGPU引擎 + Tensor引擎 + 自研高吞吐数据交换网络 | 避免传统系统级异构的芯片间数据搬运瓶颈[24047] |
| 软件定义调度 | 调度引擎在高维度控制算力分配 | 不同计算引擎可并行也可独立工作[24048] |
| 硬件兼容CUDA | 硬件层面直接兼容CUDA/OpenCL编程模型 | 无需源码修改即可迁移,降低客户迁移成本[24053] |
| 降低外部带宽依赖 | 数据流和内存管理优化 | 减少对HBM/GDDR6的依赖,缓解显存带宽瓶颈[24048] |
| Dark Silicon优化 | 异构高/中/低效率核组合 | 避免传统GPU堆砌大量中效率核但无法全部打开的问题[24042] |
| 维度 | 登临 GPU+ | NVIDIA (如T4/A10) |
|---|---|---|
| 计算引擎 | GPGPU + Tensor分离异构 | CUDA Core + Tensor Core紧耦合 |
| 调度方式 | 软件定义高维度调度 | 硬件固定调度策略 |
| 能效策略 | 架构创新降低功耗 | 制程升级 + 架构优化 |
| CUDA兼容 | 硬件级API兼容 | 原生支持 |
| 图形能力 | 无 | 部分支持 |
| 生态依赖 | 借用CUDA生态 | 自有CUDA生态 |
🤔 架构师锐评:登临GPU+在GPU通用性与ASIC效率之间找到了“甜点”。但NVIDIA的Tensor Core也在快速演进(Hopper的Transformer Engine、Blackwell的FP4),登临的架构优势能否持续,取决于其在制程和生态上的追赶速度。
登临自研的Hamming(翰铭)软件工具链支持主流AI框架(PyTorch、TensorFlow、飞桨)、主流操作系统(Linux,与龙蜥Anolis OS完成兼容互认证)、国内外主流CPU和服务器[24162]。飞桨的dlNNE库可在推理期间对登临硬件进行OP融合和优化,降低推理延迟[24163]。
登临的“硬件兼容CUDA”是其在国产GPU中独特的卖点,提供API级兼容,从源码层面实现无缝迁移,大幅降低客户迁移成本[24053]。但并非完全运行NVIDIA二进制文件,需重新编译。
登临联合数十家硬件服务器/工控机厂家、算法公司、系统软件商、行业解决方案商等,构建国产化AI生态[23954]。Goldwasser已适配数十个软硬件平台,并与飞桨、极视角等达成战略合作[24329]。
| 维度 | 状态 | 评价 |
|---|---|---|
| 框架支持 | PyTorch/TF/飞桨 | 基本覆盖主流框架 |
| CUDA兼容 | 硬件级API兼容 | 差异化优势,降低迁移成本 |
| 算子覆盖 | 持续扩展中 | 公开信息有限,大模型适配起步 |
| 开发者工具 | Hamming SDK | 基础工具链具备,但社区规模小 |
| 大模型适配 | 已适配MiniMax M2.5 | 开始追赶,但距离昇腾、昆仑芯仍有差距 |
登临是国产GPU创业公司中商业化最早、落地场景最广的企业之一:
主要应用场景:智慧城市、智算中心、互联网、金融、能源电力、智能驾驶、工业视觉、智慧农业等[23950]。
| 轮次 | 时间 | 投资方 | 金额 |
|---|---|---|---|
| 天使/A轮 | 2017-2020 | 光远资本等 | 未披露 |
| A+轮 | 2021年前 | 光远资本持续加码等 | 未披露 |
| C轮 | 2023年7月 | 中网投独家投资 [23923] | 未披露 |
| 战略轮 | 2025年1月 | 高通创投、光远资本、粒子未来、擎领华御、硅港资本、乾汇智投、国内信息化头部企业等 [23924] | 未披露 |
累计融资额未公开披露。对比壁仞科技累计融资超47亿元,登临应在其之下[23930]。
| 指标 | 数据 | 来源 |
|---|---|---|
| 估值 | 约150亿元人民币(第三方估算,非官方披露) | [24114] |
| 张江高科持股 | 间接持股,价值约2亿元 | [24114] |
| 东微半导持股 | 0.2175%(1000万元收购老股) | [24086] |
| 中新创投持股 | 4.3998%(5000万元收购) | [24086] |
| 中新集团参股 | 间接投资 | [24232] |
⚠️ 150亿估值为产业园专题报告披露,非公司官方信息。东微半导老股交易价格85.2378元/股,对应估值约46亿元,可能存在折价,不反映最新估值[24086]。
登临未公开披露财务数据。2022年销售过万片,以单卡数千至数万元估算,营收或在数千万至亿元级别。公开信息无营收、利润、研发费用等具体数据,需进一步核验。
| 竞争力维度 | 具体表现 | 评分 |
|---|---|---|
| 架构创新 | GPU+片内异构,国内首创,兼顾通用性与效率 | ⭐⭐⭐⭐ |
| 能效比 | 3倍+能效优势,TCO显著降低,客户实测验证 | ⭐⭐⭐⭐⭐ |
| 商业化先发 | 国内首个规模量产、首个超万片出货,落地场景广泛 | ⭐⭐⭐⭐⭐ |
| CUDA兼容 | 硬件级兼容,迁移成本低,保护客户现有投资 | ⭐⭐⭐⭐ |
| 团队经验 | 创始人GPU IP背景30年,供应链有华为经验 | ⭐⭐⭐⭐ |
| 场景覆盖 | 边缘到数据中心全覆盖,行业应用广泛 | ⭐⭐⭐ |
| 供应链韧性 | 采用12nm成熟制程(一代),受先进制程限制影响小 | ⭐⭐⭐⭐ |
| 短板 | 详细描述 | 严重性 |
|---|---|---|
| 非全功能GPU | 无图形渲染管线,无法覆盖图形渲染市场 | ⭐⭐⭐ |
| 绝对性能上限 | 12nm制程限制,峰值算力远低于7nm/5nm竞品 | ⭐⭐⭐⭐ |
| 大模型训练能力 | 公开信息极少,未见万卡集群部署,大规模训练能力存疑 | ⭐⭐⭐⭐⭐ |
| HBM缺失 | 采用GDDR6/LPDDR5,无HBM方案,显存带宽受限 | ⭐⭐⭐⭐ |
| 软件生态规模 | 与NVIDIA CUDA生态差距巨大,开发者社区薄弱 | ⭐⭐⭐⭐ |
| 公开信息不透明 | 关键技术和财务信息极少披露,路标不清晰 | ⭐⭐⭐ |
| IPO进展缓慢 | 相比摩尔线程、壁仞、燧原,IPO节奏明显滞后,尚无明确辅导备案 | ⭐⭐⭐⭐ |
| 品牌影响力 | 在国产GPU阵营中声量相对较小,市场认知度低 | ⭐⭐⭐ |
长电科技为登临提供Chiplet封装服务,良率达90%,短期内封装供应链风险可控[24081]。但若美国进一步收紧封装环节限制,存在潜在风险。
| 风险维度 | 等级 | 说明 |
|---|---|---|
| 代工断供风险 | 中等 | 12nm产品不受影响,但若升级先进制程则面临风险 |
| 实体清单风险 | 低 | 目前未在清单上 |
| 封装风险 | 低-中 | 国内封装,但若美国扩大管制范围存在风险 |
| IP/EDA风险 | 中等 | 若使用美国EDA工具设计先进制程芯片,存在合规风险 |
| 维度 | 登临科技 | NVIDIA | AMD | Intel |
|---|---|---|---|---|
| 产品定位 | AI推理加速器 | 全功能GPU | 全功能GPU | AI加速器(Gaudi) |
| 架构路线 | 片内异构GPU+ | CUDA Core + Tensor Core | CDNA/RDNA | 矩阵引擎 + Gaudi |
| 最接近对标 | — | NVIDIA T4/L4(推理卡) | — | Intel Gaudi系列 |
| 图形能力 | 无 | 完整支持 | 完整支持 | 有限 |
| 训练能力 | 有限 | 业界领先 | 较强 | 较强 |
| 推理能效 | 宣称3倍+优势 | 基准 | 接近 | 有竞争力 |
| 生态兼容 | 硬件兼容CUDA | 原生CUDA | ROCm | oneAPI |
登临的产品定位最接近NVIDIA的T4/L4推理卡和Intel的Gaudi系列——强调AI推理能效,而非追求全功能GPU或旗舰级训练性能。
登临科技的命运取决于AI推理市场的成长速度。IDC预测未来算力将从训练驱动转为推理驱动,这为登临提供了结构性机遇[24375]。但登临必须在生态建设、大客户获取、品牌影响力上大幅加码,并尽快推出面向大模型推理的竞争力产品。若一味固守12nm,其架构优势可能被制程差距抹平。
从技术架构角度看,GPU+是最接近“AI推理最优解”的设计之一,但技术正确不等于商业成功。登临需要证明自己不仅仅是一家“能效宣传公司”,而是能持续迭代、大规模铺货、并最终盈利的GPU企业。
补充分析芯原、瑞芯微、全志、晶晨、飞腾、龙芯、兆芯等在GPU/加速器生态中的角色
架构师注:本小节聚焦于那些并非以”独立GPU/AI加速器供应商”为核心定位,但在国产GPU/加速器生态中扮演关键角色的厂商。它们包括:GPU IP授权商(芯原)、SoC内置GPU/NPU厂商(瑞芯微、全志、晶晨),以及国产CPU厂商(飞腾、龙芯、兆芯)。这些厂商的GPU/加速器能力虽不及前述独立GPU公司,但它们的生态位——尤其在中国信创、AIoT和端侧AI市场——构成了国产GPU生态的”毛细血管”和”底座”。忽略它们,就无法完整理解国产GPU生态的全貌。
芯原是中国大陆唯一一家进入全球IP供应商前十的半导体IP公司(2024年IPnest排名:中国大陆第1、全球第8)[24468]。其核心价值在于:它是大量国产芯片的”隐形GPU IP供应商”——搭载芯原GPU IP的客户芯片全球累计出货超过 20亿颗,覆盖数据中心、汽车电子、可穿戴设备、PC等市场[24459]。换句话说,中国市场上大量SoC芯片中的GPU核心,其底层架构来自芯原而非ARM Mali或Imagination。
通俗比喻:如果ARM是移动GPU IP的”沃尔玛”,芯原就是中国本土的”精品IP超市”——品类更少但更灵活、更贴近中国客户需求,且能提供从GPU到NPU、VPU、ISP、DSP的”全家桶”一站式服务。
芯原的GPU IP已形成从 超低功耗可穿戴设备 到 高性能云游戏/桌面级 的完整覆盖:
| GPU IP产品 | 发布时间 | 定位 | 关键特性 | 目标市场 |
|---|---|---|---|---|
| Vitality架构 | 2024年12月 | 高性能 | 可配置Tensor Core、32-64MB L3缓存、单核128路云游戏、DX12 | 云游戏、AI PC、独立显卡、集成显卡 [24436] |
| GPGPU-AI计算IP | 2025年6月 | 汽车/边缘AI | INT4/8、FP4/8/16/32/64、BF16、TF32;HBM/LPDDR5X/PCIe Gen5-6/CXL;原生PyTorch/TensorFlow/ONNX | 汽车电子、边缘服务器、LLM推理 [24474] |
| GCNano3DVG | 2025年4月 | 超低功耗 | 3D/2.5D混合渲染、DDR-less配置、OpenGL ES 2.0 | 智能手表、AI/AR眼镜 [24448] |
| VGLite 2.5D GPU | 已商用 | 嵌入式GUI | 矢量图形加速、兼容LVGL | 可穿戴、IoT [24467] |
这是芯原在AI加速器领域最具野心的产品。关键特性:
架构师评注:芯原的GPGPU-AI IP在技术规格上非常激进——支持FP4精度、CXL互联、3D堆叠内存,这些是NVIDIA H100/B200级别的特性。但需要注意的是,IP和芯片是两回事:芯原提供的是”设计图纸”(IP),客户需要自己完成芯片设计、流片、验证、量产。从IP到量产芯片的距离,在7nm以下制程可能长达2-3年。芯原自己不做芯片,这是它和华为昇腾、寒武纪等芯片公司的本质区别。
芯原的核心商业模式是 IP授权(License + Royalty) 加 一站式芯片定制服务。2025年营收31.52亿元(同比+35.77%),在手订单50.75亿元(近60%为数据处理领域)[24992]。累计IP客户超460家 [24827]。
芯原在GPU生态中的角色类似于ARM在移动CPU生态中的角色——提供底层架构授权,让更多公司能快速开发自己的GPU/加速器芯片。Vitality架构的推出意味着芯原开始向高性能GPU IP领域进军,与ARM Mali/Immortalis、Imagination BXM/IMG系列直接竞争。
架构师注:芯原的战略路线是”IP芯片化→芯片平台化→平台生态化”。Chiplet架构是其中的关键——芯原正帮助客户基于Chiplet设计AI芯片,布局2.5D CoWoS等先进封装。2025年芯原宣布收购RISC-V CPU IP企业芯来智融和逐点半导体(Pixelworks中国),进一步补强GPU和视觉处理IP矩阵 [24872]。这一系列动作表明,芯原正在构建一个”IP全家桶”——CPU(RISC-V)+ GPU(自有)+ NPU(自有)+ ISP(自有)+ VPU(自有),目标是为客户提供完整的”芯片设计乐高”。
芯原的GPU IP已被多家国产芯片厂商采用:
关键问题:芯原的客户中是否包括华为、寒武纪、摩尔线程等头部GPU厂商?公开资料显示,寒武纪、华为昇腾等头部厂商均采用自研架构,不依赖第三方GPU IP。芯原的GPU IP客户更多集中在 需要”快速上车”的中小型芯片设计公司 和 跨界进入AI芯片的行业客户。芯原的价值在于”降低芯片设计门槛”,而非为顶级GPU公司提供核心IP。
| 维度 | 评价 |
|---|---|
| 技术定位 | 中国GPU IP”军火商”——自己不造芯片,但大量芯片内置芯原GPU |
| 核心优势 | IP品类最全的中国半导体IP公司;GPU IP累计出货20亿颗验证 |
| 关键短板 | 不直接做芯片,无法像NVIDIA一样掌控软硬件全栈;高性能GPU IP(Vitality)尚需客户验证 |
| 战略意义 | 中国GPU生态的”底层基础设施”——降低国产芯片GPU集成门槛 |
| 股价驱动力 | AI算力IP需求爆发 + Chiplet平台化 + 收购扩张 |
瑞芯微是中国大陆出货量最大的AIoT SoC供应商之一,2025年营收31.36亿元(+46.94%),净利润10.23-11.03亿元(+72-85%)[24527]。其核心价值在于:它是中国端侧AI芯片领域产品线最完整的厂商,从0.5 TOPS到32 TOPS的NPU全梯度覆盖,且GPU从ARM Mali向ARM Magni系列持续演进。
通俗比喻:如果把数据中心GPU比作”航空母舰”,瑞芯微的SoC就是”快艇舰队”——单艘火力不大,但数量庞大、场景灵活、成本极低。在大模型走向端侧的大趋势下,这类”快艇”的战略价值正在被重新评估。
| 芯片 | GPU | 架构 | 性能特征 |
|---|---|---|---|
| RK3588 | ARM Mali-G610 MP4 | Valhall | 支持OpenGL ES 3.2 / Vulkan 1.2 / OpenCL 2.2 |
| RK3576 | ARM Mali-G52 MC3 | Bifrost | 中高端AIoT |
| RK3568 | ARM Mali-G52 | Bifrost | 中端 |
| RK3688(预计2026) | ARM Magni系列 | 推测Mali-G720级别 | >2 TFLOPS,支持UCIe多芯片互联 [24488] |
| RK3668(2025发布) | ARM Magni GPU | 推测Mali-G720级别 | 1-1.5 TFLOPS [24500] |
架构师注:瑞芯微的GPU并非自研,而是ARM Mali/Magni的授权集成。但瑞芯微的NPU是 自研 的——这是它与全志(使用芯原NPU IP)的关键差异。自研NPU意味着瑞芯微可以更灵活地优化NPU和GPU之间的协同计算,这在端侧大模型推理中尤为重要。RK182X协处理器(2025年Q3发布)的推出是瑞芯微”解耦算力”战略的关键——通过PCIe将NPU协处理器与主控SoC分离,实现AI算力的独立升级,这一思路类似于NVIDIA的”GPU+CPU”分离策略 [24500]。
| 算力层级 | 代表芯片 | NPU算力 | 市场定位 |
|---|---|---|---|
| 旗舰(预计2026) | RK3688 | 32 TOPS | 高端平板/笔记本/边缘大模型 |
| 次旗舰(2025) | RK3668 | 16 TOPS | 中高端平板/边缘AI |
| 高端(量产) | RK3588/RK3576 | 6 TOPS | AIoT/智能座舱/边缘计算 |
| 专用协处理器 | RK182X | LLM推理专项 | 3B-7B参数模型,搭配主控使用 |
| 下一代协处理器 | RK1860 | >64 TOPS | 预计2026,最高13B参数 [24532] |
| 维度 | 评价 |
|---|---|
| 技术定位 | 端侧AI SoC领军者,NPU自研+GPU ARM授权 |
| 核心优势 | 产品线最完整(0.5-32 TOPS),营收利润健康,端侧AI落地领先 |
| 关键短板 | GPU非自研(依赖ARM),无法进入数据中心/AI训练市场 |
| 与国产GPU关系 | 端侧AI的”最后一公里”——大模型在数据中心训练、在端侧推理,瑞芯微吃的是推理红利 |
全志科技2024-2025年最显著的技术变化是 GPU从ARM Mali转向Imagination BXM-4-64,同时NPU主要采用 芯原VIP9000架构 [24598]。
| 芯片 | GPU | NPU | 制程 |
|---|---|---|---|
| A733(2024发布) | Imagination BXM-4-64 MC1 | 可选3 TOPS(芯原VIP9000) | 12nm |
| A527/T527 | ARM Mali-G57 MC1 | 2 TOPS | 22nm |
| A523 | ARM Mali-G57 MC1-2EE | 0.8-2 TOPS | 22nm |
| T536(2025) | G2D硬件加速器(无3D GPU) | 最高3 TOPS | 22nm |
| A736/A737(路线图) | Imagination BXM-4-64 MC2 | 4-6 TOPS | 12nm |
架构师评注:全志的GPU转向Imagination是一个值得关注的信号。Imagination的BXM系列在能效比上优于同代ARM Mali,且授权费用可能更低。但Imagination的软件生态(驱动、工具链)远不如ARM成熟——这意味着全志需要自己投入更多资源做GPU驱动优化。全志在开源社区的”冷淡”态度(2012-2015年曾因缺乏主线Linux支持失去大量开发者 [25383])正在改善——2024-2025年已开始为A527/T527/A733发布公开datasheet和Linux SDK [24557]。
| 维度 | 评价 |
|---|---|
| 技术定位 | 差异化路线的端侧AI SoC厂商(Imagination GPU + 芯原NPU) |
| 核心优势 | GPU/NPU双线并行,RISC-V渗透全面,12nm量产突破 |
| 关键短板 | GPU和NPU均依赖第三方IP(非自研);软件生态建设滞后;营收规模较小(2025H1约13.37亿元) |
| 与国产GPU关系 | 芯原VIP9000 NPU的”样板客户”——验证了国产NPU IP的商业化路径 |
晶晨2024-2025年最核心的突破是 6nm制程量产 和 NPU全系标配。其在GPU方面从Bifrost(Mali-G31)向Valhall(Mali-G310)架构的跨越带来了约3倍的图形性能提升 [25018]。
| 芯片 | GPU | NPU | 制程 |
|---|---|---|---|
| S905X5(2024) | ARM Mali-G310 V5 @1GHz | 4 TOPS | 6nm |
| S905X5M(2024) | ARM Mali-G310 V2 @850MHz | AI-SR专用 | 6nm |
| S928X | ARM Mali-G57 MC2 | 3.2 TOPS | 12nm |
| A311D2 | ARM Mali-G52 MP8 | 3.2-5 TOPS | 12nm |
| A311Y3(2026) | 待确认 | 8 TOPS | 待确认 |
架构师评注:晶晨的AI-SR(AI超分辨率)是差异化亮点——将低分辨率视频实时提升至接近4K画质。这一功能在机顶盒和智能电视市场非常实用,但在AI训练/推理的主流叙事中容易被忽视。晶晨的6nm量产经验在国产芯片厂商中属于”第一梯队”——大多数国产GPU厂商仍在7nm挣扎,晶晨却在6nm消费级芯片上实现了千万级出货。这种工程化量产能力,如果未来能向AI加速器领域延伸,将是一大优势。
| 维度 | 评价 |
|---|---|
| 技术定位 | 6nm消费级SoC先行者,NPU标配化推动者 |
| 核心优势 | 6nm千万级量产经验,NPU芯片出货超2000万颗,全球机顶盒市场龙头 |
| 关键短板 | GPU非自研,应用场景局限在音视频/机顶盒/智能显示,AI训练/数据中心零存在 |
| 与国产GPU关系 | 端侧AI推理的”大规模验证者”——证明NPU可以在消费级芯片上大规模出货 |
本小节以表格形式横向对比18家国产GPU/GPGPU/AI加速器核心厂商的 成立时间、总部、创始团队背景、融资与上市状态 等基本身份信息,为后续各维度深度对比提供基础参照系。信息截至2026年6月,优先采用招股书、年报、交易所公告及公司官网等一手资料。
说明:本节聚焦”厂商基本身份信息”,产品技术细节、商业化数据、供应链风险等维度将在后续各表中展开。
| 公司 | 成立时间 | 总部 | 创始人/实际控制人 | 核心团队背景 | 是否严格GPU | 上市/融资状态 | 最新估值/市值(截至2026.06) |
|---|---|---|---|---|---|---|---|
| 华为昇腾 | 2018.10(产品线发布) | 深圳 | 华为(任正非);徐直军为战略主导者 [25808] | 总架构师廖恒(清华博士,海思首席科学家);CTO周斌(原NVIDIA CUDA Fellow);海思总裁何庭波 [25934] | 否(AI加速器) | 华为全资(员工持股),不上市 [25965] | 未上市,2026年营收预计约120亿美元 |
| 海光DCU | 2014.10 | 天津(注册)/北京(办公) | 中科曙光、中科院计算所等联合发起;总经理沙超群 [26082] | 脱胎于中科曙光/中科院计算所体系;前技术负责人唐志敏(龙芯首席科学家)[26083] | 否(GPGPU) | 688041.SH(科创板,2022.08上市)[26048] | 约6886亿元市值 [25759] |
| 寒武纪 | 2016.03 | 北京 | 陈天石(中科大少年班/中科院计算所博士);其兄陈云霁(中科院计算所首席科学家)[25614] | 脱胎于中科院计算所;核心团队平均年龄25岁起家,多人参与过龙芯CPU研发 [25742] | 否(AI加速器) | 688256.SH(科创板,2020.07上市)[12486] | 约9656亿元市值(2026.06.18)[25878] |
| 摩尔线程 | 2020.06(注册)/2020.10(运营) | 北京 | 张建中(前NVIDIA全球副总裁/中国区总经理,持股约44.07%)[25566] | 7名高管中5名曾长期在NVIDIA供职;CTO张钰勃(前NVIDIA GPU架构师);联合创始人周苑(前NVIDIA市场生态总监近16年)[25586] | 是(全功能GPU) | 688795.SH(科创板,2025.12上市)[25577] | 约3364亿元市值 [25759] |
| 壁仞科技 | 2019.09 | 上海 | 张文(哈佛法学博士、前商汤总裁、华尔街背景)[25644] | 联席CEO李新荣(前AMD全球副总裁);CTO洪洲(前华为海思GPU负责人,30年+GPU经验);联合创始人焦国方(前高通Adreno架构师,已离职)[25650] | 否(GPGPU) | 6082.HK(港交所,2026.01上市)[25709] | IPO前估值209亿元 [25686];港股市值超900亿港元 |
| 沐曦 | 2020.09 | 上海 | 陈维良(清华微电子硕士,前AMD全球GPU SoC设计总监,主导15款GPU量产)[26161] | “铁三角”:硬件CTO彭莉(AMD首位华人女Fellow)、软件CTO杨建(AMD大中华区首位Fellow);团队平均近20年GPU端到端经验 [26589] | 是(全功能GPU) | 688802.SH(科创板,2025.12上市)[26295] | 约3033亿元市值 [25759] |
| 天数智芯 | 2015.12 | 上海(2020年从南京迁入) | 李云鹏(创始人,Oracle前研发总监);后刁石京(原工信部司长/紫光国微董事长)接任董事长(2022年被调查);现任董事长盖鲁江 [26180] | 芯片团队100+人来自AMD;首席科学家郑金山(前AMD GPU团队负责人);CTO吕坚平 [26344] | 否(GPGPU) | 9903.HK(港交所,2026.01上市)[26144] | D+轮投前估值120亿元 [26132];港股市值约400亿港元 |
| 燧原科技 | 2018.03 | 上海 | 赵立东(清华EE85班,前AMD计算事业部高级总监/紫光集团副总裁);联合创始人张亚林(前AMD同事)[21384] | 研发人员643人(占76.73%);核心团队来自AMD、NVIDIA [980] | 否(AI加速器) | 科创板IPO过会(2026.06.15),拟募资60亿元 [26218] | 最后一轮估值约202亿元 [26273] |
| 昆仑芯 | 2011.06(前身星云融创);2021.06独立运营 | 北京 | 欧阳剑(前百度首席架构师/芯片首席架构师,清华AIR工程博士)[27210] | 前身为百度智能芯片及架构部,在国内最早布局AI加速(超10年);百度”七剑客”之一崔珊珊参与管理 [27221] | 否(AI加速器) | 港股已递表(2026.01)+ 科创板辅导中(2026.05)[26859] | D轮投后估值约210亿元 [26805] |
| 瀚博半导体 | 2018.12 | 上海 | 钱军(前AMD,带领量产业界首颗7nm GPU);张磊(前AMD Fellow/院士)[27559] | 研发团队500+人,研发人员占比80%+;核心成员来自AMD、NVIDIA、Intel,平均从业超18年 [27565] | 是(全功能GPU) | 已完成IPO辅导(2025.12),辅导机构中信证券 [27564] | 估值约105亿元(2025胡润全球独角兽榜)[27463] |
| 景嘉微 | 2006.04 | 长沙 | 曾万辉(国防科大硕士,董事长兼总经理);喻丽丽(副董事长,夫妻档)[26430] | 核心团队几乎清一色国防科大(NUDT)背景;军工电子基因浓厚 [26319] | 是(图形GPU,向AI拓展) | 300474.SZ(创业板,2016.03上市)[26314] | 约257亿元市值(2025年数据)[26532] |
| 芯动科技 | 2006 | 武汉/珠海/北京(多中心) | 敖海(国家”千人计划”专家,硅谷回国);敖钢(联合创始人/副总经理)[27024] | 千人级研发团队;覆盖130nm到3nm全工艺节点;全球唯一同时签约台积电/三星/格芯/中芯国际等主流晶圆厂的技术伙伴 [27019] | 是(全功能GPU,IP授权+自研结合) | Pre-IPO(未上市) | 估值约300亿元(新财富独角兽榜单)[26727] |
| 象帝先 | 2020.09 | 重庆 | 唐志敏(龙芯一号/二号首席科学家、海光信息前总裁/总经理,中科院计算所博导)[23550] | 核心成员来自海光、NVIDIA、AMD;平均从业经验超15年;国内少数同时具备CPU+GPU双研发经验的团队 [23668] | 是(GPU) | 已完成5轮融资约25亿元;2026.04签约中信建投冲刺IPO [27760] | 估值一度达150亿元(2024年),后经历危机估值回调 |
| 登临科技 | 2017.11 | 上海(注册于苏州) | 李建文(清华微电子所硕士,前图芯科技副总裁,GPU领域二三十年经验)[27656] | 联合创始人王平(清华本硕);核心团队来自图芯、S3、NVIDIA、AMD、阿里,平均20年+GPU经验 [27590] | 否(GPGPU——AI加速器) | 已完成多轮融资(含高通创投、中网投、光远资本等);估值约10亿美元(2022年数据)[27674] | 最新估值约10亿美元(2022年数据,需进一步核验) |
| 砺算科技 | 2021.08 | 上海(注册于南京) | 宣以方(联席CEO,S3 Graphics创始成员,21年GPU开发VP经验);孔德海(联席CEO,清华毕业,S3资深);牛一心(CTO,全球首颗GPU ViRGE负责人)[26823] | 三位创始人均出自S3 Graphics(硅谷老牌GPU企业,比NVIDIA早4年);团队至少10+位S3资深专家;平均从业15年+ [26845] | 是(全功能GPU) | 累计融资约11.28亿元;东芯股份(688110)持股35.87%为最大股东;投前估值35亿元(2025.08)[26840] | 投前估值35亿元(2025.08)[26959] |
| 芯瞳半导体 | 2019.11 | 厦门(原西安) | 黄虎才(西安邮电大学GPU团队核心,2009年起带队研发GPU)[27151] | 核心团队源自西邮GPU团队(国内最早GPU团队之一);成员来自Intel、AMD、华为海思、Mstar、RedHat、腾讯等 [26910] | 是(GPU) | 大胜达(603687)战略投资5.5亿元,持股22.98%;投前估值20亿元(2026.03)[27134] | 投前估值20亿元(2026.03)[27135] |
| 龙芯中科(GPU/GPGPU) | 2008.03(公司);2001年龙芯项目启动 | 北京 | 胡伟武(中科大/中科院计算所博士,龙芯总设计师)[27618] | 中科院计算所体系;自研LoongArch指令集+GPU核 | 是(从CPU集成GPU走向独立GPU/GPGPU) | 688047.SH(科创板,2022.06上市) | 上市公司,市值随市场波动 |
| 公司 | 成立时间 | 总部 | 创始人/实际控制人 | 核心团队背景 | 是否严格GPU | 上市/融资状态 | 最新估值/市值 |
|---|---|---|---|---|---|---|---|
| 芯原股份 | 2001 | 上海 | 戴伟民(董事长/CEO,美国总统青年研究奖获得者,前UC Santa Cruz教授)[27610] | 全球2000+员工;9个设计研发中心;覆盖GPU/NPU/VPU/ISP等全品类IP [27598] | 否(GPU IP供应商) | 688521.SH(科创板,2020.08上市)[27599] | 上市公司 |
| 瑞芯微 | 2001 | 福州 | 励民(创始人)[27678] | 专注SoC芯片设计;深圳、上海、北京、杭州设分公司 [27678] | 否(SoC内置GPU/NPU) | 603893.SH(上交所主板,2020.02上市)[27676] | 上市公司 |
| 全志科技 | 2007 | 珠海 | 张建辉(创始人)[27723] | 深圳、西安、上海、成都等地设研发中心 [27716] | 否(SoC内置GPU/NPU) | 300458.SZ(创业板,2015上市)[27716] | 上市公司 |
| 晶晨股份 | 2003 | 上海 | 钟培峰(创始人)[27721] | 多媒体SoC芯片设计 | 否(SoC内置GPU/NPU) | 688099.SH(科创板,2019.08上市) | 上市公司 |
| 维度 | 详情 |
|---|---|
| 公司名称 | 阿里平头哥半导体(T-Head) |
| 成立时间 | 2018.09(云栖大会宣布);2018.10公司注册 [26710] |
| 总部 | 上海张江(实际运营);杭州(注册地)[26689] |
| 创始人/负责人 | 包文俊(法定代表人,2025.01起);原核心人物孟建熠(副总裁,RISC-V灵魂人物)2023年离职创办知合计算 [26686] |
| 核心团队背景 | 由阿里达摩院芯片团队(约100人,大多来自AMD/ARM/NVIDIA/Intel)+ 收购的中天微(中国唯一自主嵌入式CPU IP Core公司)整合而成 [26712] |
| 是否严格GPU | 否(AI加速器+CPU IP) |
| 上市/融资状态 | 阿里巴巴全资子公司,未外部融资;2026.01彭博社报道阿里计划重组为员工持股独立实体并启动IPO,阿里未置评 [26673] |
| 最新估值 | 2025年真武PPU出货量已达数十万片,超越寒武纪,在国产GPU厂商中领先 [26615] |
成立时间高度集中:18家核心厂商中,11家成立于2018-2020年的”创芯运动”窗口期,占比超过60%。这一波创业潮与中美科技博弈升级、AI大模型兴起、信创政策推动高度相关。
创始人背景三足鼎立:NVIDIA系(摩尔线程)、AMD系(沐曦、瀚博、燧原、天数智芯、登临)、中科院计算所系(寒武纪、海光、象帝先、龙芯)构成三大人才流派。其中AMD基因最为广泛,反映了AMD上海研发中心对中国GPU人才市场的深厚贡献。
上市潮集中爆发:2025.12-2026.06期间,摩尔线程(2025.12)、沐曦(2025.12)、壁仞科技(2026.01)、天数智芯(2026.01)集中上市,燧原科技(2026.06过会)、昆仑芯(港股递表+科创板辅导)紧随其后,形成国产GPU资本化密集窗口。已上市企业市值分化剧烈——寒武纪逼近万亿,而天数智芯约400亿港元,差距达20倍以上。
“非GPU公司”占多数:严格意义上的”全功能GPU”(同时具备图形渲染+通用计算能力)仅有摩尔线程、沐曦、景嘉微、芯动科技、砺算科技、象帝先、瀚博半导体、芯瞳半导体8家。其余10家本质上是AI加速器/GPGPU,图形渲染能力缺失或极弱。
“华为不上市”的独特生态位:昇腾是唯一不上市的头部玩家,也是唯一在营收规模上与国际巨头可比的国产方案。华为以”不上市、不融资”的独特模式,通过内部输血和政企订单维持昇腾的持续迭代,这使其不受资本市场短期情绪影响,但也缺乏外部融资的灵活性 [25965]。
互联网巨头”御用芯片”格局:腾讯重仓燧原科技(第一大股东),百度孵化昆仑芯(控股57.67%),阿里自研平头哥真武。这种”各养各的芯片”格局短期内为国产AI芯片提供了稳定场景和订单,但长期可能导致生态碎片化 [26258]。
估值与商业化严重倒挂:部分企业估值与实际营收差距悬殊。如寒武纪2025年营收64.97亿元,市值一度逼近万亿(市销率超150倍);砺算科技2025年营收仅2.48万元,但投前估值35亿元 [26852]。市场对”算力叙事”的容忍度远超产业真实兑现节奏。
⚠️ 不确定信息标注:①登临科技最新估值数据来源较旧(2022年约10亿美元),当前估值需进一步核验 [27674];②平头哥IPO时间表尚无官方确认,彭博社报道为匿名消息源 [26673];③昆仑芯2025年营收数据来自市场口径,官方数据待IPO招股书披露 [26861];④部分未上市公司的融资轮次和金额可能因未公开披露而不完整。
国产GPU/AI加速器赛道的创始团队,按技术渊源可划分为 “AMD系”、“NVIDIA系”、“中科院计算所/龙芯系”、“国防科大系”、“S3/Trident系”、“清华系”、“图芯/Vivante系”、“华为内部孵化”、“百度内部孵化”、“阿里体系” 等几大派系。每一派系都烙印着母公司的技术基因和商业思维,深刻影响着产品路线、软件生态和商业化策略。团队背景不仅决定了”从哪里来”,更在很大程度上预判了”往哪里去”。
┌── 燧原科技 (赵立东/张亚林)
├── 沐曦MetaX (陈维良/彭莉/杨建)
AMD系 ────────┼── 瀚博半导体 (钱军/张磊)
├── 天数智芯 (郑金山/孙怡乐)
└── 壁仞科技 (李新荣/张凌岚)
NVIDIA系 ────┼── 摩尔线程 (张建中/周苑/张钰勃/王东)
└── 壁仞科技 (洪洲/杨超源)
中科院计算所 ─┼── 寒武纪 (陈天石/陈云霁/刘少礼)
├── 象帝先 (唐志敏)
└── 海光DCU (唐志敏早期/刘新春/杨晓君)
国防科大系 ───┼── 景嘉微 (曾万辉/饶先宏/胡亚华)
S3/Trident系 ─┼── 砺算科技 (宣以方/孔德海/牛一心)
└── 沐曦早期渊源 (陈维良/彭莉/杨建曾在Trident共事)
图芯/Vivante ─┼── 登临科技 (李建文)
└── 芯原股份 (戴伟民/戴伟进收购图芯)
华为内部 ─────┼── 昇腾 (廖恒/夏晶/周斌/党文栓)
百度内部 ─────┼── 昆仑芯 (欧阳剑)
阿里内部 ─────┼── 平头哥真武 (谢源/James等)
西邮GPU团队 ──┼── 芯瞳半导体 (黄虎才/李洋/韩俊刚)
海归/硅谷 ────┼── 芯动科技 (敖海)
└── 天数智芯 (李云鹏/Oracle系)
| 公司 | 创始人/CEO | 核心技术负责人 | 核心团队渊源 | 团队标签 | 团队规模(研发) |
|---|---|---|---|---|---|
| 华为昇腾 | 徐直军(战略)、何庭波(海思) | 廖恒(达芬奇架构总师/Fellow)、夏晶(海思芯片总架构师)、周斌(CANN架构师/前NVIDIA) | 华为海思+2012实验室+PMC-Sierra+NVIDIA | 华为自研体系+清华系 | 数千人级(海思整体)[28232] |
| 阿里平头哥真武 | 戚肖宁(CEO)、谢源(CTO/ACM Fellow) | 核心架构师未公开 | 中天微+达摩院+AMD/ARM/NVIDIA/Intel | 大厂体系+高度保密 | 未公开 |
| 寒武纪 | 陈天石(CEO/中科大少年班) | 陈云霁(首席科学家/龙芯3号主架构师)、刘少礼(指令集第一作者) | 中科院计算所+龙芯+中科大少年班 | 中科院学术派”双子星” | ~1000+ [27848] |
| 摩尔线程 | 张建中(前NVIDIA全球副总裁/中国区总经理14年) | 张钰勃(CTO/前NVIDIA架构师)、杨上山(软件研发总经理/前NVIDIA架构师8年) | NVIDIA中国团队骨干 | ”NVIDIA中国嫡系” | 全流程覆盖 [27817] |
| 壁仞科技 | 张文(哈佛法学博士/前商汤总裁) | 洪洲(CTO/前NVIDIA主架构师+海思GPU负责人)、梁晓峣(首席科学家/前NVIDIA首席架构师/哈佛博士) | NVIDIA+AMD+高通+华为海思 | ”跨界猎头+豪华技术班底” | ~657人(83%硕博)[28072] |
| 海光DCU | 孟宪棠(董事长)、沙超群(总经理/前中科曙光) | 潘于(前AMD芯片设计高级经理)、刘新春(前中科曙光研发中心负责人) | AMD x86授权+中科曙光+中科院计算所 | ”AMD授权+中科系” | ~2369人(84.5%研发)[28445] |
| 景嘉微 | 曾万辉(国防科大微波硕士) | 胡亚华(副总裁/国防科大电子系)、余圣发(高级副总裁/国防科大硕士) | 国防科大电子系+军工背景 | ”国防科大系全华班” | ~1000+(70%研发)[28458] |
| 天数智芯 | 盖鲁江(现任CEO/财务背景,前普华永道德勤) | 郑金山(首席科学家/前AMD GPU团队)、孙怡乐(前AMD高级经理14年) | AMD GPU+Oracle+前工信部(刁石京时期) | “AMD GPU+软件双轮” | ~480人(含硅谷20人)[28537] |
| 沐曦MetaX | 陈维良(前AMD全球GPU SoC设计总负责人/15款GPU量产) | 彭莉(CTO/前AMD首位华人女性Fellow)、杨建(CTO/前AMD大中华区首位Fellow) | AMD上海研发中心核心团队+Trident | ”AMD中国GPU全建制团队” | 全建制覆盖 [28723] |
| 燧原科技 | 赵立东(清华EE85”梦之班”/前AMD高级总监/前紫光副总裁/前锐迪科总裁) | 张亚林(COO/前AMD资深芯片经理/主导Xbox One主芯片) | AMD上海研发中心+清华系 | ”AMD双子星” | 数百人 [28926] |
| 砺算科技 | 宣以方(联席CEO/前S3研发副总裁/28年GPU经验/Trio+Savage负责人) | 牛一心(CTO/首个S3D引擎+ViRGE负责人/30年GPU经验) | S3 Graphics创始团队(成立早于NVIDIA) | “S3老将,GPU活化石” | 平均18年+经验 [29008] |
| 芯动科技 | 敖海(国家千人计划/15年北美高端芯片经验) | 敖钢(联合创始人/副总经理)、何颖(SoC体系架构师) | 硅谷海归+中芯国际IP生态 | ”IP定制+GPU新兵” | 覆盖130nm-3nm [29513] |
| 芯瞳半导体 | 黄虎才(西安邮电大学教师/2009年GPU团队) | 李洋(CTO/16年+GPU经验)、韩俊刚(学术奠基人/西邮教授)、蓝善清(前Intel/AMD架构师) | 西邮GPU团队(2009年国内最早GPU团队) | “学术孵育+产业融合” | 12-15年深耕 [29609] |
| 百度昆仑芯 | 欧阳剑(百度T11首席芯片架构师/10年+AI芯片) | 徐宁仪(前微软亚研)、冯景辉(研发副总裁/前瑞星) | 百度智能芯片及架构部+微软亚研 | ”百度内部技术孵化” | 数百人 [29021] |
| 瀚博半导体 | 钱军(前AMD高级总监/800人GPU团队/第一颗7nm GPU) | 张磊(前AMD Fellow/40+专利/视频AI最高技术负责人) | AMD GPU+ATI(14年+) | “AMD全功能GPU旗舰组合” | ~500人(80%研发)[29637] |
| 象帝先 | 唐志敏(中科院计算所博士/龙芯一号二号首席科学家/前海光总裁) | 核心团队来自海光/NVIDIA/AMD | 中科院计算所+龙芯CPU+海光CPU | ”国产CPU教父跨界GPU” | 平均15年+经验 [29697] |
| 登临科技 | 李建文(清华微电子/30年GPU/前图芯Vivante副总裁) | 王震宇(多项GPU架构专利)、杨剑(全球运营副总裁/前华为供应链副总裁) | 图芯科技(Vivante)+清华系 | ”GPU IP授权老将” | 7个研发中心 [24002] |
| 芯原股份(GPU IP) | 戴伟民(UC Berkeley博士/前终身教授) | 戴伟进(前图芯CEO)、GPU IP团队继承自Vivante | Vivante/图芯+美国硅谷 | ”IP授权平台+图芯基因” | 全球布局 [28985] |
AMD系是国产GPU赛道最大的人才输出方,没有之一。其核心原因在于AMD上海研发中心(2006年成立)在十余年间培养了大批GPU全流程人才——从IP设计、SoC集成、板卡设计到软件驱动,形成了完整的GPU研发能力链。
| 公司 | 与AMD的渊源 | 团队级别 |
|---|---|---|
| 沐曦 | 创始人陈维良是AMD全球GPU SoC设计总负责人,两位CTO均为AMD Fellow | 最高级别”全建制”团队 [28723] |
| 瀚博 | 钱军是AMD高级总监(800人团队),张磊是AMD Fellow(最高技术称号) | 旗舰级 [29630] |
| 燧原 | 赵立东是AMD高级总监,张亚林是AMD资深芯片经理 | 高级别 [28926] |
| 天数智芯 | 郑金山带领AMD上海GPU团队,孙怡乐14年AMD高级经理 | 中高级别 [28537] |
| 壁仞 | 李新荣是AMD全球副总裁/中国研发中心总经理,张凌岚是AMD PMTS | 高级别 [27931] |
| 海光DCU | 潘于是AMD芯片设计高级经理 | 中级别 [28442] |
🔬 架构师点评:AMD系团队的核心优势在于 完整的GPU设计流程经验——他们真正做过GPU,知道从RTL到量产的全过程有哪些坑。但AMD系也有一个隐忧:AMD本身在GPU市场长期被NVIDIA压制,其软件生态(ROCm)的弱势也映射到了国产AMD系团队的产品中。AMD系能做”芯片”,但做”CUDA级生态”的能力存疑。
NVIDIA系团队的核心特征是 对CUDA生态的深刻理解 和 对软件栈重要性的认知。在NVIDIA,GPU从来不只是硬件,而是一个”硬件+软件+生态”的完整系统。
| 公司 | 与NVIDIA的渊源 | 关键特征 |
|---|---|---|
| 摩尔线程 | 张建中(NVIDIA全球副总裁/中国区总经理14年)、张钰勃(NVIDIA架构师)、杨上山(NVIDIA架构师8年) | 最纯正的NVIDIA基因,覆盖从市场、销售到架构的完整链条 [27817] |
| 壁仞 | 洪洲(NVIDIA主架构师)、梁晓峣(NVIDIA首席架构师/哈佛博士)、杨超源(NVIDIA上海总经理) | 技术层面有NVIDIA架构师,但创始人张文非技术出身 [27779] |
🔬 架构师点评:摩尔线程的张建中是国内GPU赛道中唯一真正操盘过NVIDIA全业务链的创始人——他懂芯片、懂生态、懂市场、懂客户。这种”全栈”商业认知在国产GPU创业者中极为稀缺。但缺点是:NVIDIA的成功模式是否能在国产GPU赛道复制,关键变量不在团队,而在供应链和制程。
中科院计算所是中国芯片设计人才的”摇篮”,龙芯项目更是培养了一代体系结构人才。这一派的创业者普遍具有 极强的学术背景 和 国家项目经验,但商业化能力参差不齐。
| 公司 | 与中科院/龙芯的渊源 | 独特标签 |
|---|---|---|
| 寒武纪 | 陈云霁是龙芯3号主架构师,陈天石在中科院计算所完成博士,DianNao系列论文获ASPLOS/MICRO双最佳论文奖 | AI芯片学术先驱,从指令集到芯片全自研 [27834] |
| 象帝先 | 唐志敏是龙芯一号/二号首席科学家,龙芯课题组牵头人,曾任海光信息总裁 | ”国产CPU教父”级人物,55岁跨界GPU [28791] |
| 海光 | 唐志敏早期任海光总裁,刘新春/杨晓君来自中科曙光 | 中科系技术+AMD x86授权 [28437] |
🔬 架构师点评:中科院计算所系的团队在 体系结构学术深度 上国内无出其右,寒武纪的DianNao系列论文至今仍是AI芯片领域的经典。但”学术派”的短板在于商业化落地——寒武纪成立多年至今仍在亏损,象帝先2024年甚至一度解散。学术能力≠商业能力,这是这一派系需要正视的问题。
景嘉微是国内唯一一家完全由国防科大系主导的GPU上市公司,其创始人曾万辉、胡亚华、饶先宏均毕业于国防科大,早期8位技术骨干中7位来自国防科大转业[28464]。
这一派系的独特之处在于 与军工体系深度绑定——景嘉微从航空图形显控模块起步,产品先后应用于神舟飞船、军用战机等航空航天领域[28473]。国防科大系团队的特点是 稳定、低调、耐得住寂寞——三位创始人搭档超过20年,这在国产GPU赛道中独一无二。
但这也意味着景嘉微的团队基因中 缺乏商业GPU的竞争经验——他们没有做过消费级显卡,没有参与过OpenGL/DirectX/Vulkan的生态竞争,也没有应对过NVIDIA/AMD的产品迭代节奏。
砺算科技的三位联合创始人——宣以方、孔德海、牛一心——均来自 S3 Graphics,这家公司成立于1989年,早于NVIDIA(1993年),是图形芯片领域的”活化石”级存在[29004]。
| 人物 | S3年代代表作 | 行业意义 |
|---|---|---|
| 宣以方 | Trio图形芯片(年销2000万颗)、Savage(野人)3D显示芯片 | 经历过GPU从2D到3D的完整演进 [29090] |
| 牛一心 | 首个S3D引擎、ViRGE(全球第一代3D加速GPU) | 定义了早期3D加速的硬件范式 [29097] |
| 孔德海 | 中国第一代VLSI设计师 | 1984年清华无线电系,跨越近40年芯片史 [29097] |
🔬 架构师点评:S3系团队在图形渲染管线上的积淀极其深厚——他们经历了GPU从固定管线到可编程着色器的完整演进,对图形API(DirectX/OpenGL/Vulkan)的理解不是”学习”而是”亲历”。但S3的遗产也有局限:S3在2000年后被NVIDIA和ATI彻底边缘化,其架构理念停留在DirectX 9时代。砺算团队能否将S3的基因进化到现代GPU架构,是关键问题。
华为昇腾的团队不是”一个团队”,而是 华为海思+2012实验室+计算产品线 的体系化作战力量。其核心人物廖恒(达芬奇架构总师)是清华计算机系博士、普林斯顿博士后,曾任PMC-Sierra Fellow[28232]。CANN软件栈的核心架构师周斌是清华电子系博士,前NVIDIA高级工程师[28228]。海思芯片总架构师夏晶参与了华为二十年来重大CPU/NPU/GPU芯片的研发[28262]。
华为昇腾团队的特点是 全栈覆盖——从芯片架构(廖恒/夏晶)、编译器(季宇/”天才少年”)、软件栈(周斌)、到产品定义(王晓雷)、生态建设(张熙伟/邓泰华),每个环节都有顶级人才。这种”体系化”能力是其他国产GPU公司难以复制的。
国产GPU赛道中,有几位创始人并非技术出身,但凭借资源整合能力打造了豪华团队:
| 创始人 | 公司 | 原背景 | 团队构建方式 |
|---|---|---|---|
| 张文 | 壁仞科技 | 哈佛法学博士/前商汤总裁/前私募基金 | ”中国第一大猎头”——请哈佛师弟列名单逐一招募 [27776] |
| 盖鲁江 | 天数智芯 | 普华永道/德勤/财务背景 | 接管前任管理层(刁石京)留下的技术团队 [28536] |
| 励民 | 瑞芯微 | 浙江大学经济学硕士 | 非技术出身,但以市场嗅觉驱动产品定义 [30516] |
🔬 架构师点评:非技术创始人做GPU芯片,在中国市场有其合理性。GPU创业需要的不仅是技术,还是融资、政府关系、客户获取。张文在壁仞的”猎头”能力确实打造了一支豪华技术团队,但创始人技术判断力的缺失可能在关键时刻成为风险——焦国方和徐凌杰两位联合创始人的先后离职,或与此有关[27972]。
| 团队渊源 | 代表公司 | 技术路线倾向 | 软件生态思路 | 商业化惯性 |
|---|---|---|---|---|
| AMD系 | 沐曦/燧原/瀚博/天数 | GPGPU/全功能GPU | ROCm兼容/HIP迁移 | 数据中心/服务器 |
| NVIDIA系 | 摩尔线程/壁仞 | 全功能GPU/CUDA兼容 | CUDA兼容/MUSA架构 | 消费级+数据中心 |
| 中科院系 | 寒武纪/象帝先 | AI专用芯片/自研架构 | 自研指令集/框架 | 政企/智算中心 |
| 国防科大系 | 景嘉微 | 军工图形GPU | 自研/国产OS适配 | 军工/信创 |
| S3系 | 砺算 | 图形GPU | DirectX/OpenGL/Vulkan原生 | 消费级显卡 |
| 图芯系 | 登临/芯原 | GPGPU/GPGPU-AI | 硬件兼容CUDA | 边缘推理/IP授权 |
| 华为体系 | 昇腾 | AI训练推理全栈 | 自研CANN | 全场景 |
| 百度体系 | 昆仑芯 | AI推理/XPU | 自研XPU架构 | 百度生态+外部 |
| 阿里体系 | 平头哥真武 | GPGPU | 自研+ROCm | 阿里云内部 |
1. 创始团队”出身决定路线”现象极为明显
AMD系普遍走GPGPU/ROCm兼容路线,NVIDIA系走CUDA兼容路线,中科院系走自研架构路线,S3系走图形GPU路线。这不是巧合,而是”你只在做过的事情上擅长”的体现。中国GPU赛道的技术路线分化,本质上就是创始团队背景的分化。
2. “全建制团队”稀缺,仅沐曦和摩尔线程可称此列
“全建制”意味着团队覆盖GPU架构定义、IP设计、SoC集成、物理设计、驱动开发、软件框架的全流程。沐曦的”三剑客”(陈维良/彭莉/杨建)和摩尔线程的NVIDIA系班底,是国内仅有的两支真正具备 GPU全流程量产经验 的团队。其他团队或多或少存在”偏科”——有的缺图形驱动经验,有的缺芯片量产经验,有的缺软件生态人才。
3. 华为昇腾是唯一”不依赖外部创始人”的体系
华为昇腾的团队来自华为内部体系(海思+2012实验室),其人才的招聘、培养、晋升均在华为体系内完成。这意味着昇腾的团队稳定性和资源调动能力远超其他创业公司,但也意味着其文化和技术路线受华为体系约束。
4. 学术派创业的”商业化魔咒”
寒武纪和象帝先的创始人均来自中科院计算所,学术成就极高但商业化表现不佳。寒武纪上市多年仍亏损,象帝先2024年一度解散。这提示:芯片架构的学术创新与芯片的商业成功之间存在巨大的鸿沟,后者需要的是工程化能力、供应链管理、客户获取和生态运营,而非论文发表。
5. 创始人更迭风险
天数智芯从李云鹏(Oracle背景)→刁石京(工信部/紫光背景)→盖鲁江(财务背景),管理层三度更迭[28534]。壁仞科技六位联合创始人中已有两位(焦国方、徐凌杰)离职[27972]。创始团队的稳定性直接关系到芯片产品的连续性——GPU芯片的研发周期通常3-5年,管理层动荡对产品迭代的打击可能是致命的。
6. 90%的国产GPU创始团队都有”外企”背景
无论是AMD、NVIDIA、S3、图芯、高通还是Intel,国产GPU赛道几乎所有创始人都曾在国际芯片巨头工作过。这确保了技术能力的起点,但也意味着:这些团队熟悉的是”如何在外企体系内做芯片”,而非”如何在制裁环境下从零构建芯片公司”。后者的能力,目前只有华为昇腾真正具备。
| 维度 | 最强团队 | 最有风险团队 | 说明 |
|---|---|---|---|
| 技术深度 | 寒武纪(DianNao学术开创者)、华为昇腾(廖恒/达芬奇架构) | 部分跨界创始人(非技术背景) | 学术深度≠商业成功 |
| 工程经验 | 沐曦(15款GPU量产)、砺算(15代GPU迭代) | 芯瞳、天数智芯(量产经验相对有限) | 量产是GPU最难的环节 |
| 商业能力 | 摩尔线程(张建中NVIDIA全业务链)、华为昇腾(体系化销售) | 寒武纪(持续亏损)、象帝先(一度解散) | 商业能力决定生死 |
| 团队稳定性 | 景嘉微(20年+搭档)、华为昇腾(体系内) | 天数智芯(三度换帅)、壁仞(联合创始人离职) | GPU是长跑,稳定很重要 |
| 融资能力 | 壁仞(张文猎头+资本运作)、摩尔线程(品牌效应) | 象帝先(曾资金链断裂) | 资本是GPU的燃料 |
| 供应链安全 | 华为昇腾(自研+国内产线)、海光(AMD授权但受制裁) | AMD系(代工依赖台积电) | 供应链是最大变量 |
⚠️ 待进一步核验信息:
- 阿里平头哥真武芯片的具体设计负责人和架构师姓名未公开
- 芯瞳半导体部分早期成员的海外大厂任职细节需进一步核实
- 砺算科技承接中天恒星技术成果的具体范围和知识产权归属
- 部分公司(如天数智芯、登临)核心成员的股权结构未公开披露
对比芯片型号、制程、算力、目标场景(训练/推理/图形/HPC)
本小节聚焦国产GPU/GPGPU/AI加速器厂商的核心芯片产品,从芯片型号、制程工艺、多精度算力、显存配置、功耗及目标场景进行系统对比,为读者提供”一张表看懂各家产品力”的快速参考。
架构师注:芯片算力数据需区分”纸面峰值”与”实际可用算力”。同一芯片在不同精度(FP32/FP16/INT8/FP64)下算力差异可达数倍至数十倍,且受显存带宽、散热、软件栈效率等因素制约。以下数据均来自公开资料,”—“表示公开资料中未找到可信数据,非意味着该芯片不支持该精度。
| 公司 | 芯片型号 | 制程 | FP32 (TFLOPS) | FP16/BF16 (TFLOPS) | INT8 (TOPS) | FP64 (TFLOPS) | 显存 | 显存带宽 | 功耗(W) | 训练 | 推理 | 图形 | HPC | 是否全功能GPU |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 华为昇腾 | Ascend 910B | 7nm (SMIC N+1) | ~94 | ~320 | ~640 | — | 64GB HBM2e | ~400 GB/s | 310 | ✅ | ✅ | ❌ | ❌ | 否(AI加速器) |
| 华为昇腾 | Ascend 910C | 7nm (双Die合封) | — | ~800 | ~1,600 | — | 128GB HBM3 | 3.2 TB/s | ~600 | ✅ | ✅ | ❌ | ❌ | 否(AI加速器) |
| 寒武纪 | 思元590 (MLU590) | 7nm (SMIC) | ~80 | 256–345 | 512 | — | 80GB HBM2e | ~2 TB/s | 250 | ✅ | ✅ | ❌ | ❌ | 否(AI加速器) |
| 摩尔线程 | MTT S4000 | 7nm | 25 | 100 | 200 | ~32 | 48GB GDDR6 | 768 GB/s | 450 | ✅ | ✅ | ✅ | ⚠️ | 是(全功能GPU) |
| 摩尔线程 | MTT S5000 | 7nm+ | — | — | — | — | 80GB | 1.6 TB/s | — | ✅ | ✅ | ✅ | ⚠️ | 是(全功能GPU) |
| 海光DCU | 深算二号 (DCU 8200) | 7nm+ | ~90 | 180–256 | ~1,000 | ~10.2 | 96GB HBM3 | 1.5 TB/s | 350 | ✅ | ✅ | ⚠️ | ✅ | 否(GPGPU) |
| 海光DCU | 深算三号 (BW1000) | 5nm | 60 | 480 | — | 30 | 64GB HBM2e | 1.6 TB/s | 300 | ✅ | ✅ | ❌ | ✅ | 否(GPGPU) |
| 壁仞科技 | BR100 | 7nm (TSMC, Chiplet) | 256 | 1,024 | 2,048 | — | 64GB HBM2E | — | 550 | ✅ | ✅ | ❌ | ❌ | 否(AI加速器) |
| 壁仞科技 | BR104 | 7nm (TSMC) | 128 | 512 | 1,024 | — | 32GB HBM2E | — | 300 | ✅ | ✅ | ❌ | ❌ | 否(AI加速器) |
| 景嘉微 | JM11 | 未披露(推测14nm/7nm) | 6 | 12 | — | — | 最大64GB DDR4 | — | — | ❌ | ⚠️ | ✅ | ❌ | 是(全功能GPU) |
| 天数智芯 | 天垓100 | 7nm (CoWoS) | ~24 | 147 | — | — | 32GB HBM2 | 1.2 TB/s | 250 | ✅ | ⚠️ | ❌ | ❌ | 否(GPGPU) |
| 天数智芯 | 智铠100 | 7nm | 24 | 96 | 384 | — | 32GB HBM2E | 800 GB/s | 150 | ❌ | ✅ | ❌ | ❌ | 否(推理专用) |
| 沐曦 | MXC500 (曦云C500) | 7nm | 15–18 | 240–280 | 480–560 | — | HBM | — | — | ✅ | ✅ | ❌ | ❌ | 否(GPGPU) |
| 沐曦 | MXN100 (曦思N100) | 7nm | — | 80 | 160 | — | HBM2E | — | — | ❌ | ✅ | ❌ | ❌ | 否(推理专用) |
| 沐曦 | C600 (曦云C600) | 国产先进制程 | — | — | — | — | 144GB HBM3e | 3.6 TB/s | — | ✅ | ✅ | ❌ | ❌ | 否(GPGPU) |
| 燧原科技 | 邃思2.0 (云燧T20/T21) | 12nm (GF) | 40 | 160 (BF16/FP16) | 320 | — | 64GB HBM2E | 1.8 TB/s | — | ✅ | ⚠️ | ❌ | ❌ | 否(AI加速器) |
| 燧原科技 | 邃思2.5 (云燧i20) | 12nm (GF) | 32 | 128 (BF16/FP16) | 256 | — | 16GB HBM2e | 819 GB/s | — | ❌ | ✅ | ❌ | ❌ | 否(推理专用) |
| 燧原科技 | 邃思400 (燧原L600) | 未公开 | — | — | — | — | — | — | — | ✅ | ✅ | ❌ | ❌ | 否(训推一体) |
| 百度昆仑芯 | R300 (昆仑芯2代) | 7nm (三星) | 32 | 128 | 256 | — | GDDR6 | 512 GB/s | ≤150 | ⚠️ | ✅ | ❌ | ❌ | 否(AI加速器) |
| 百度昆仑芯 | P800 (昆仑芯3代) | 7nm | — | 345 | ~512 | — | 64GB | — | ~400 | ✅ | ✅ | ❌ | ❌ | 否(AI加速器) |
| 阿里平头哥 | 含光800 | 12nm (TSMC) | — | — | 820 | — | — | — | 276 | ❌ | ✅ | ❌ | ❌ | 否(推理专用) |
| 阿里平头哥 | 真武810E | 7nm | ~22.6 | ~362 (BF16) | — | — | 96GB HBM2e | — | 400 | ✅ | ✅ | ❌ | ❌ | 否(AI加速器) |
| 阿里平头哥 | 真武M890 | 7nm | — | 600 | — | — | 144GB HBM3 | — | — | ✅ | ✅ | ❌ | ❌ | 否(AI加速器) |
| 砺算科技 | 7G100 (LX 7G100) | 6nm (TSMC) | 24 | — | — | — | 12GB GDDR6 | — | 225 | ❌ | ⚠️ | ✅ | ❌ | 是(全功能GPU) |
| 芯动科技 | 风华3号 | 全国产 | 78 | — | — | — | 112GB+ | 1.8 TB/s | — | ⚠️ | ⚠️ | ✅ | ❌ | 是(全功能GPU) |
| 瀚博半导体 | SG100 (VA1L/VA12) | 7nm | — | 72–160 | 200–512 | — | — | — | 75–250 | ❌ | ✅ | ✅ | ❌ | 是(全功能GPU) |
| 象帝先 | 天钧一号 | 12nm | 4 | — | 16 | — | 16GB GDDR6 | 256 GB/s | — | ❌ | ❌ | ✅ | ❌ | 是(全功能GPU) |
| 象帝先 | 伏羲架构 | 5nm | 160 | — | — | — | 12GB HBM2 | — | — | ⚠️ | ⚠️ | ✅ | ❌ | 是(全功能GPU) |
| 登临科技 | Goldwasser II (KS系列) | 12nm/更先进 | — | — | 最高~1,024 | — | 最高128GB | — | 15–150 | ⚠️ | ✅ | ❌ | ❌ | 否(AI加速器) |
| 芯瞳半导体 | CQ2040 | 12nm | 1.3 | — | — | — | — | — | 10 | ❌ | ⚠️ | ✅ | ❌ | 是(全功能GPU) |
符号说明:✅ = 核心目标场景;⚠️ = 可覆盖但非主攻方向;❌ = 不支持或严重不适用;”—” = 公开资料未查到可信数据
制程标注:TSMC = 台积电;SMIC = 中芯国际;GF = 格芯(GlobalFoundries);“全国产” = 国产供应链
| 公司 | 芯片型号 | 制程 | 预期FP16算力 | 关键升级点 | 预期量产 | 状态 |
|---|---|---|---|---|---|---|
| 华为昇腾 | 950PR | 自研HBM | ~500 TFLOPS | 自研HBM HiBL 1.0、FP8原生 | 2026 Q1 | 已发布路线图 |
| 华为昇腾 | 950DT | 自研HBM | ~500 TFLOPS | 自研HBM HiZQ 2.0、FP8/MXFP4 | 2026 Q4 | 已发布路线图 |
| 寒武纪 | 思元690 | 5nm (等效7nm) | H100的80-85% | Chiplet异构集成 | 2026年 | 已送测 |
| 摩尔线程 | 华山/庐山 (花港架构) | 未公开 | — | FP4-FP64全精度、十万卡集群 | 2026年 | 已发布,2026量产 |
| 沐曦 | C700 | 国产先进制程 | 接近H100 | FP4支持、全精度 | 2026 Q2流片 | 在研 |
| 昆仑芯 | M100 | 国产制程 | — | MoE推理优化、极致性价比 | 2026年初 | 已发布路线图 |
| 昆仑芯 | M300 | 国产制程 | — | 超大规模多模态训推 | 2027年初 | 已发布路线图 |
| 阿里平头哥 | 真武V900 | 未公开 | M890的3倍 | 216GB显存、1200 GB/s互联 | 2027 Q3 | 已发布路线图 |
| 芯瞳 | GB3000 | 7/10nm (SMIC) | 34–106 TFLOPS | DX12、光追、PCIe 5.0 | 2026 Q3流片 | 在研 |
下表按芯片厂商在四大核心场景(AI训练、AI推理、图形渲染、HPC科学计算)的覆盖能力进行分类:
| 场景分类 | 核心厂商(主力出货) | 追赶厂商(已落地但规模有限) | 规划中厂商 |
|---|---|---|---|
| 大模型训练 | 华为昇腾910B/C、寒武纪思元590、海光深算二号/三号、阿里真武810E/M890 | 天数智芯天垓100、摩尔线程S5000、沐曦MXC500、壁仞BR100/BR104、昆仑芯P800 | 沐曦C700、昆仑芯M300 |
| 大模型推理 | 华为昇腾910B、寒武纪思元590、阿里真武810E、昆仑芯P800、天数智芯智铠100 | 燧原S60(邃思320)、瀚博VA12、登临Goldwasser II、沐曦MXN100 | 昆仑芯M100 |
| 图形渲染(桌面/工作站) | 景嘉微JM11/JM1100、砺算7G100 | 摩尔线程S3000/S4000、芯动风华3号、瀚博SG100 | 摩尔线程庐山(花港)、象帝先伏羲 |
| HPC科学计算 | 海光深算三号(BW1000)(FP64=30TFLOPS,国产最强) | 海光深算二号 | 华为昇腾(通过集群弥补单卡FP64不足) |
| 云游戏/云桌面/虚拟化 | 摩尔线程S3000/S4000、景嘉微JM11 | 瀚博SG100、芯动风华3号 | 芯瞳GB3000 |
| 边缘AI/端侧推理 | 登临Goldwasser UL、瀚博VE1、天数智芯彤央 | 昆仑芯R300、燧原i20 | 景嘉微CH37系列 |
架构师洞察:从上表可清晰看出,真正同时覆盖”AI训练+AI推理+图形渲染+HPC”四大场景的厂商几乎不存在。最接近”全能型”的是 摩尔线程(AI训练+推理+图形渲染,HPC尚弱)和 海光DCU(AI训练+推理+HPC,但无图形渲染能力)。华为昇腾在AI训练和推理领域最强,但完全不做图形渲染。这反映出国产GPU赛道的深层现实:“全功能GPU”是一个极高的技术门槛,大多数厂商选择在AI加速器这一细分赛道深耕。
| 技术路线 | 代表厂商 | 核心特征 | 优点 | 风险 |
|---|---|---|---|---|
| 自研AI加速器(DSA/ASIC) | 华为昇腾、寒武纪、燧原、昆仑芯、阿里平头哥 | 自研架构+自研软件栈,不兼容CUDA | 软硬件深度协同、针对AI极致优化 | 生态封闭、迁移成本高、开发者少 |
| GPGPU(兼容CUDA/ROCm) | 海光DCU、天数智芯、沐曦、壁仞 | 兼容CUDA/ROCm生态,类GPU架构 | 迁移成本低、复用现有AI软件栈 | 架构人才稀缺、与NVIDIA专利边界模糊 |
| 全功能GPU(图形+AI) | 摩尔线程、景嘉微、砺算、芯动、瀚博、象帝先、芯瞳 | 同时支持图形API(DX/Vulkan/OpenGL)和AI计算 | 场景覆盖最广、可进可退 | 技术难度最高、驱动生态最难做 |
| GPU IP授权 | 芯原股份 | 提供GPU IP,不直接造芯片 | 商业模式轻、覆盖面广 | 不掌控最终产品、单客户价值低 |
| SoC内置GPU/NPU | 瑞芯微、全志、晶晨 | 端侧芯片集成GPU+NPU | 出货量大、生态成熟 | 算力有限、无法进入数据中心 |
| CPU厂商自研GPU | 飞腾、龙芯、兆芯 | 集成显卡或桌面GPU | 信创生态绑定 | 性能远落后独立GPU |
国产GPU芯片标注的制程(7nm、5nm等)需要仔细甄别:
壁仞BR100: 1,024 TFLOPS (BF16) ← 纸面巅峰,但量产受制裁影响
华为910C: 800 TFLOPS ← 国产实际可用最强
阿里M890: 600 TFLOPS ← 2026年5月刚发布
海光BW1000: 480 TFLOPS ← 5nm工艺,HPC双精度最强
寒武纪590: 256-345 TFLOPS ← 2025年批量落地
昆仑芯P800: 345 TFLOPS ← 实测确认
沐曦C500: 240-280 TFLOPS ← 对标A100约75%
燧原邃思2.0: 160 TFLOPS ← 12nm工艺的天花板
天数天垓100: 147 TFLOPS ← 国内首款7nm通用GPU
架构师注:BR100的1,024 TFLOPS是BF16峰值,且受2023年10月实体清单制裁后,台积电停止代工,后续量产状态不明 [32937]。华为910C通过双Die合封方案实现800 TFLOPS,是当前国产实际可用最强AI算力芯片 [30656]。
国产GPU中真正具备实用图形渲染能力的厂商寥寥无几:
| 图形能力分级 | 厂商 | 当前水平 | 对标 |
|---|---|---|---|
| 消费级游戏可用 | 砺算科技 | DX12 + WHQL认证,100+游戏适配,3DMark≈RTX 4060 | ≈NVIDIA RTX 4060 |
| 桌面/工作站可用 | 景嘉微 | JM11: DX11 + Vulkan 1.3 + OpenGL 4.6, 云桌面实测 | ≈NVIDIA RTX 2060-3060 |
| 云游戏/虚拟化 | 摩尔线程 | S4000: vGPU+视频编解码,Top 50游戏100%兼容 | ≈NVIDIA A100级别图形 |
| 入门级桌面 | 芯动科技 | 风华3号: DX12 + 硬件光追 + 8K渲染 | 待实测验证 |
| 基本不可用 | 其余所有AI加速器厂商 | 无图形API支持 | — |
架构师注:砺算科技2026年4月获得微软WHQL认证,是全球第四家(NVIDIA/AMD/Intel之后)、中国首家获此认证的GPU厂商 [32662]。这意味着砺算的图形驱动通过了微软的严格稳定性测试,是国产图形GPU的重要里程碑。但注意:砺算芯片由 台积电6nm代工,供应链存在地缘风险 [32649]。
在FP64双精度这一HPC核心指标上,海光DCU深算三号(BW1000)的30 TFLOPS 是国产芯片中唯一可与NVIDIA H100(30-34 TFLOPS)正面竞争的 [31225]。其余国产芯片的FP64算力要么未公开(意味着极低),要么通过软件模拟(性能损失巨大)。这是海光DCU不可替代的差异化优势——也是其被定位为”中国版AMD Instinct”的核心原因。
按照严格定义(同时支持AI训练推理+图形渲染API+通用计算),当前国产厂商中真正走”全功能GPU”路线的仅 摩尔线程、砺算科技、景嘉微、芯动科技、瀚博半导体、象帝先、芯瞳半导体 七家。其余厂商均为”AI加速器”或”GPGPU”,不包含图形渲染管线。这七家中,目前仅有摩尔线程和砺算科技的产品性能进入”实用级”(可对标NVIDIA中端消费卡),其余仍在入门级水平。
中国国产GPU/AI加速器行业已形成 “一超(华为昇腾)+ 多强(寒武纪、海光DCU、阿里平头哥)+ 群狼(摩尔线程、壁仞、沐曦、天数智芯、燧原、昆仑芯等)+ 图形GPU专项梯队(砺算、景嘉微、芯动等)” 的竞争格局。
从产品系列完整度来看,华为昇腾和摩尔线程 分别代表了”AI加速器”和”全功能GPU”两条路线的最高水平。从目标市场覆盖来看,没有任何一家厂商能同时覆盖所有场景——AI训练最强的是华为昇腾和寒武纪,HPC最强的是海光DCU,图形渲染最强的是砺算科技和景嘉微,而推理性价比最高的可能是昆仑芯P800和登临Goldwasser II。
这种”各有所长、难以通吃”的格局,意味着未来3-5年中国算力市场的国产替代将以 “混合部署、多芯协同” 为主要模式,而非单一厂商的一家独大。
对比核心架构设计、微架构、制造工艺、封装技术
本小节从 核心架构设计(指令集/微架构)、制造工艺(制程节点/代工厂)、封装技术(2.5D/3D/Chiplet/Interposer) 三个维度,对18家国产GPU/GPGPU/AI加速器厂商进行横向对比。这是评价芯片”硬实力”最核心的三根支柱,也是后续训练/推理/图形/HPC能力差异的底层根源。
| 厂商 | 代表芯片 | 架构名称 | 架构类型 | 指令集 | 制程节点 | 代工厂 | 晶体管数 | Die面积 |
|---|---|---|---|---|---|---|---|---|
| 华为昇腾 | 910B / 910C | 达芬奇(Da Vinci) | AI加速器(DSA) | 自研Da Vinci ISA | 7nm(N+1→N+2) | SMIC(DUV) | 910C ≈530亿 | 910B 665.6 mm² |
| 海光DCU | 深算二号 | CDNA×自研 | GPGPU(SIMT) | AMD CDNA派生+自研 | 7nm / 7nm+ | 台积电/SMIC(推测) | 未公开 | 未公开 |
| 寒武纪 | 思元590 | MLUarch05 | AI加速器(DSA) | 自研MLU ISA | 7nm(N+2) | SMIC(DUV) | 583亿 | ≈800 mm² |
| 摩尔线程 | S4000(曲院) | MUSA 3rd Gen | 全功能GPU | 自研MUSA ISA | 7nm(推测) | 台积电→SMIC | 未公开 | 未公开 |
| 壁仞科技 | BR100 | 壁立仞(BiLiren) | GPGPU(SIMT) | 自研ISA | 7nm | TSMC N7 | 770亿 | 1074 mm²(双die) |
| 沐曦 | C600(曦云) | XCORE 1.5 | GPGPU | 自研ISA | 7nm / 12nm(国产版) | 台积电→SMIC | 未公开 | 未公开 |
| 天数智芯 | 天垓100 | 第一代GPGPU | GPGPU(SIMT) | 自研ISA | 7nm | 台积电(推测) | 240亿 | 未公开 |
| 燧原科技 | 邃思400(L600) | GCU-CARA 4th | AI加速器(DSA) | 自研GCU ISA | 7nm(L600) | SMIC(L600),格芯12nm(早期) | 未公开 | 邃思2.0 57.5×57.5mm封装 |
| 昆仑芯 | R200/R300(2代) | XPU-R | AI加速器(DSA) | 自研XPU ISA | 7nm | 台积电(推测) | 未公开 | 未公开 |
| 瀚博半导体 | SV102 | DSA(自研) | AI加速器(DSA) | 自研ISA | 7nm | 台积电(推测) | 未公开 | 未公开 |
| 景嘉微 | JM9系列 | 天枢 | 图形GPU(统一渲染) | 自研ISA | 14nm | 境内代工厂(推测) | 未公开 | 未公开 |
| 芯动科技 | 风华3号 | 自研GPU内核 | 全功能GPU | 自研+香山RISC-V主控 | 12nm(风华1/2)→未公开(风华3) | 境内代工厂 | 未公开 | 未公开 |
| 象帝先 | 伏羲A0 | 伏羲(自研+IMG DXD) | 图形GPU | 自研+IMG DXD | 5nm(伏羲) | 未公开 | 未公开 | 未公开 |
| 登临科技 | Goldwasser | GPU+(Minsky) | GPGPU——AI加速器 | 自研ISA | 12nm | 台积电/格芯(推测) | 未公开 | 未公开 |
| 砺算科技 | 7G100 | TrueGPU天图 | 全功能GPU | 自研ISA | 6nm(TSMC N6) | 台积电 | 未公开 | 未公开 |
| 芯瞳半导体 | GB2062/CQ2040 | 启明 | 图形GPU(统一渲染) | 自研ISA | 12nm | 境内代工厂 | 未公开 | 未公开 |
| 阿里平头哥 | 真武810E | 自研并行计算架构 | GPGPU | 自研ISA | 7nm | 台积电→国产7nm | 未公开 | 未公开 |
说明:部分厂商(尤其是初创公司)未公开披露晶体管数量、芯片面积等底层物理参数。“推测”标注表示基于产业链报道和行业惯例的合理推断。代工厂信息在实体清单制裁后,部分公司已转向国产代工方案,原台积电流片信息可能仅适用于早期批次。
芯片的”灵魂”在于计算核心的微架构设计——这决定了算力密度、能效比和编程灵活性。国产厂商在核心微架构上呈现出三条泾渭分明的路线:
路线一:类GPU的SIMT/SIMD多核架构(GPGPU路线)
这条路线最接近NVIDIA/AMD的GPU设计哲学,采用大规模并行线程阵列+统一调度器。
| 厂商 | 核心微架构特征 | 关键参数 |
|---|---|---|
| 海光DCU | CU(Compute Unit)× N,每CU含4个SIMD,每SIMD 10个Wavefront×64线程。L1 Cache与共享内存 物理分离(不同于NVIDIA的统一L1/Shared Memory设计)[35295] | 深算一号:60 CU / 3840~4096核心;深算二号:CU数未公开 |
| 壁仞科技 | SPC(Streaming Processor Cluster)×32,每SPC含16 EU。每EU含16个V-Core(SIMT通用处理器)+ 1个T-Core(脉动3D GEMM张量引擎)。T-Core每时钟矩阵吞吐量是NVIDIA Hopper SM子分区的 4倍[35403] | BR100:32 SPC,总计8192 V-Core + 512 T-Core,L2 256MB |
| 摩尔线程 | MUSA核心×4096 + 128张量核心(S3000)。第四代”平湖”架构:8192着色核心+512张量核心。第五代”花港”架构:算力密度提升50%,支持FP4-FP64全精度 [34964] | S4000:8192向量核心+128张量核心;S5000:8192着色核心+512张量核心 |
| 沐曦 | XCORE 1.0/1.5:标量+矢量+张量三单元混合计算。XCORE 1.5新增FP8 Tensor及Tensor转置指令 [35571] | C500:XCORE 1.0;C600:XCORE 1.5,FP8 1000 TFLOPS |
| 天数智芯 | 全自研SIMT架构,支持标量/矢量/张量运算。天垓Gen 2引入”天枢”架构,注意力机制算力有效利用率>90% [36000] | 天垓100:240亿晶体管,FP16 ~147 TFLOPS |
路线二:DSA(领域专用架构)AI加速器路线
这条路线放弃了GPU的通用性和图形渲染能力,专为AI矩阵运算深度定制,类似Google TPU或NVIDIA Tensor Core的”极致放大版”。
| 厂商 | 核心微架构特征 | 关键参数 |
|---|---|---|
| 华为昇腾 | Da Vinci核心:3D Cube矩阵运算单元(16×16×16 MAC/cycle)+ Vector单元+ Scalar单元。910B:25个”新达芬奇”核心,4×6 Mesh NoC互联,1024-bit位宽运行在2GHz [34746] | 910B:25核,FP16 320 TFLOPS;910C:双die合封,FP16 ≈800 TFLOPS |
| 寒武纪 | MLU Core×N,每4个MLU Core组成Cluster(含1个Memory Core+共享SRAM)。MTP(Multi Tensor Processor)子系统。7芯粒Chiplet,NoC互联延迟<5ns [34504] | 思元590:7芯粒,583亿晶体管,FP16 256 TFLOPS |
| 燧原科技 | GCU-CARA:指令驱动+可编程数据流融合。三大引擎:计算引擎(张量/矢量/标量)、数据引擎(可编程共享缓存调度+异步数据加载+硬件指令预取)、互联引擎(GCU-LARE)[36140] | 邃思2.0:FP32 40 TFLOPS,TF32 160 TFLOPS;邃思400:FP8原生 |
| 昆仑芯 | XPU-R异构双引擎:SDNN(专用张量引擎)+ XPU Cluster(通用标量/矢量计算单元),通过NoC互联(~256GB/s),统一调度器动态分配 [36240] | 昆仑芯2代:INT8 256 TOPS,FP16 128 TFLOPS |
| 瀚博半导体 | DSA自研架构,内部AI核细节未公开。强调”相比GPU在特定AI推理负载上3-10倍能效提升” [36541] | SV102:INT8 ≥200 TOPS,75W |
路线三:图形渲染GPU(统一渲染架构)路线
这条路线以图形渲染为核心,逐步向AI计算拓展,对标NVIDIA GeForce/AMD Radeon。
| 厂商 | 核心微架构特征 | 关键参数 |
|---|---|---|
| 景嘉微 | 自研”天枢”架构:多核PCU(可编程计算单元)+ 统一内存架构(UMA)。业界主流统一渲染架构,从JM5400/JM7200固定管线升级为可编程Shader [35918] | JM9系列:FP32 1.5~8 TFLOPS(设计目标),14nm |
| 砺算科技 | TrueGPU天图架构:48 CU / 192 TMU / 96 ROP。支持FP32/INT32双发射、智能乱序渲染(效率+50%)、矩阵内存布局优化(显存效率+40%)、NRSS超分技术 [37181] | 7G100:48 CU,FP32 24 TFLOPS,FP16 120 TFLOPS,6nm |
| 芯动科技 | 风华1号基于Imagination BXT架构授权;风华3号转向自研GPU内核+香山RISC-V主控(南湖核),全国产底层设计 [38388] | 风华3号:FP32 78 TFLOPS,单卡112GB+显存,支持DX12/Vulkan 1.2/光追 |
| 象帝先 | 第一代盘古架构(自研,2048核心);第二代伏羲架构(基于Imagination DXD架构,全球唯一量产的IMG DXD产品)[36626] | 伏羲A0:FP32 160 TFLOPS,12GB HBM2,5nm,支持光追 |
| 芯瞳半导体 | 自研”启明”统一渲染架构:1152个流处理器,高度可扩展互联结构 [37737] | GB2062:FP32 1.3 TFLOPS,12nm,10W超低功耗 |
路线四:异构融合架构(GPU+ / 混合路线)
| 厂商 | 核心微架构特征 | 关键参数 |
|---|---|---|
| 登临科技 | GPU+(Minsky架构):基于GPGPU的软件定义片内异构计算架构。硬件兼容CUDA/OpenCL,通过架构创新在相同工艺下实现3-10倍能效优势 [38322] | Goldwasser-XL:INT8 512 TOPS,12nm |
| 阿里平头哥 | 真武系列:自研并行计算架构(GPGPU路线),自研ICN片间互联,搭配自研ICN Switch 1.0互联芯片 [38278] | 真武810E:96GB HBM2e,FP16(未公开),700GB/s互联;M890:144GB,800GB/s互联 |
资深架构师洞察:国产厂商的架构选择本质上是在”通用性 vs 效率”、“兼容性 vs 自主性”、“图形 vs AI”这三对矛盾中做取舍。全功能GPU(砺算、摩尔线程、芯动、象帝先)不仅要做好AI计算,还要啃下图形渲染这块”硬骨头”——图形API兼容、像素管线、纹理单元、光栅化、光线追踪,每一项都是需要长期积累的工程难题。相比之下,AI专用加速器(华为昇腾、寒武纪、燧原、昆仑芯)可以在AI矩阵运算上做到极致优化,但面对需要图形渲染的场景(数字孪生、云游戏、专业可视化)则完全无能为力。GPGPU路线(海光、壁仞、沐曦、天数智芯、登临)在中间地带,既能做AI计算,又有一定的通用计算灵活性,但距离真正的”插上显示器就能打游戏”还有很大距离。
制程是芯片竞争力的”物理天花板”。更先进的制程意味着更高的晶体管密度、更低的功耗、更小的芯片面积——三者缺一不可。
| 制程节点 | 厂商及代表产品 | 代工厂 | 备注 |
|---|---|---|---|
| 6nm | 砺算科技 7G100 | 台积电 N6 | 国产GPU中唯一已流片量产的6nm级产品 [37169] |
| 7nm(包括7nm+) | 华为昇腾910B/C、海光DCU深算一号/二号、寒武纪思元590、摩尔线程S3000/S4000(推测)、壁仞BR100/BR104、沐曦C500/C550/C600、天数智芯天垓100/智铠100、燧原L600、昆仑芯2代、瀚博SV102、阿里平头哥真武810E | 台积电(部分已断供)、SMIC N+1/N+2(DUV) | 国产算力芯片的”主战场”节点 |
| 12nm | 登临Goldwasser、芯动风华1号/2号(风华3号制程未公开)、燧原邃思2.0(T20/T21)、芯瞳GB2062/CQ2040 | 台积电/格芯/境内代工厂 | 成熟节点,成本优、产能充裕,但能效比上限明显 |
| 14nm | 景嘉微 JM9系列 | 境内代工厂(推测) | 落后国际主流约3-4代 |
| 5nm | 象帝先 伏羲A0(已流片)、华为昇腾910D(传闻) | 未公开(5nm需台积电/三星,存在制裁风险) | 国内仅有的两款触及5nm的GPU产品 |
关键事实:美国2022年10月7日出口管制新规后,台积电/三星对中国大陆先进制程代工全面受限。目前国产GPU厂商的制程来源分为三类:
| 代工路线 | 代表厂商 | 优势 | 风险 |
|---|---|---|---|
| 台积电库存/早期流片 | 壁仞BR100、摩尔线程(早期)、砺算7G100 | 工艺成熟,良率高,性能有保障 | 实体清单后无法补充,库存耗尽即”断粮” |
| SMIC N+1/N+2(DUV 7nm) | 华为昇腾910B/C、寒武纪思元590 | 可量产,国产化率高 | 良率低(~20-50%),成本高,晶体管密度远低于台积电N7 [35181] |
| 境内成熟制程(12nm/14nm) | 登临、景嘉微、芯瞳、芯动(早期) | 产能充裕,不受制裁影响 | 性能天花板低,难以参与高端AI训练竞争 |
资深架构师洞察:SMIC的N+1/N+2(等效7nm)是用DUV光刻机通过多重曝光实现的”伪7nm”——晶体管密度远低于台积电的”真7nm”EUV工艺。根据TechInsights的拆解,SMIC版910B的Virtuvian计算芯粒面积(665.6 mm²)比台积电原版910的Virtuvian(456.25 mm²)大了约46% [35218]。这意味着同样的芯片在SMIC工艺下面积更大、功耗更高、性能更低。这就是为什么华为910C需要用两颗die合封来追赶H100的单die性能——不是架构不想创新,而是制程拖了后腿。😤
| 对比维度 | 国产最优水平 | NVIDIA当前水平 | 代际差距 |
|---|---|---|---|
| 量产制程 | SMIC N+2(≈7nm DUV) | TSMC N4P(4nm EUV) | 约2-3代 |
| 晶体管密度 | SMIC N+2约65-80 MTr/mm²(推测) | TSMC N4约180 MTr/mm² | 约2-3倍差距 |
| 已流片但未量产制程 | 砺算6nm(台积电)、象帝先5nm(来源不明) | TSMC N3E(3nm,Blackwell B200) | 约2代 |
| 产能规模 | SMIC 7nm以下约45k wspm(2025) | TSMC先进制程约150k+ wspm | 约3-4倍差距 [34922] |
先进封装是国产GPU实现”弯道超车”的关键技术路径——当单die制程受限时,通过Chiplet(芯粒)技术将多个小芯片合封,可以在一定程度上弥补制程差距。
| 封装技术等级 | 技术特征 | 采用厂商 | 对标国际方案 |
|---|---|---|---|
| 2.5D硅中介层(Interposer) | 芯片+HBM通过硅中介层高密度互联 | 华为昇腾、海光DCU、壁仞BR100、天数智芯、燧原邃思2.0、阿里平头哥真武、沐曦C600(部分) | 台积电CoWoS |
| 双die合封(有机基板桥接) | 两颗独立die分别放在各自Interposer上,通过有机基板互联 | 华为昇腾910C | NVIDIA B200-like,但带宽更低 |
| Chiplet(多芯粒NoC互联) | 多个功能芯粒通过片内NoC互联 | 寒武纪思元590(7芯粒)、壁仞BR100(2芯粒) | AMD MI300X(8芯粒) |
| Innolink Chiplet(国产标准) | 芯动自研国产Chiplet封装标准 | 芯动科技(风华1号) | UCIe |
| 标准FC-BGA封装 | 无硅中介层,无HBM,倒装芯片BGA | 砺算7G100、景嘉微JM9、芯瞳、登临Goldwasser、昆仑芯2代 | 标准GPU/CPU封装 |
| MXM嵌入式模块 | 紧凑型板卡封装 | 芯瞳(CQ2040)、登临(Goldwasser-UL MXM) | NVIDIA Jetson、嵌入式GPU |
| 厂商 | 封装方案 | 封装供应商 | HBM集成 | 关键特征 |
|---|---|---|---|---|
| 华为昇腾910B | 2.5D:1×Virtuvian die + 4×HBM + 2×Dummy die + 硅中介层 + 有机基板 | 盛合晶微(前中芯长电) | HBM2e 64GB(B3版HBM3e) | 中国大陆唯一量产2.5D芯粒的封测企业 [34943] |
| 华为昇腾910C | 双die合封:2×910B die → 各自硅中介层 → 有机基板桥接 | 盛合晶微 | HBM2e 128GB | 类似NVIDIA B200方案,但互联带宽更低 [34945] |
| 海光DCU | 2.5D硅中介层:DCU die + HBM → Interposer → 有机基板 | 国产供应链(已整合) | HBM2/HBM2e/HBM3 | 已完成完整国产封装供应链整合 [35268] |
| 壁仞BR100 | TSMC 2.5D CoWoS:2×Compute die(537mm²×2)+ 4×HBM2e → 硅中介层。Die-to-Die 896 GB/s | 台积电 | HBM2e 64GB,1.6 TB/s | 实体清单后台积电断供,后续封装方案需切换 [35360] |
| 寒武纪思元590 | 7芯粒Chiplet + NoC片内互联 + HBM2e 2.5D封装 | 未公开(推测国产供应链) | HBM2e 96GB | 第二代Chiplet方案,NoC延迟<5ns [34883] |
| 天数智芯 | 2.5D CoWoS:GPGPU die + HBM2/HBM2e → 硅中介层 | 未公开(推测台积电→国产) | HBM2 32GB(天垓100)/ HBM2e 32GB(智铠100) | 国内首款7nm 2.5D CoWoS GPGPU [35784] |
| 燧原科技 | 邃思2.0:2.5D先进封装,1主芯片+4颗HBM2E+其他,共9颗芯片合封。封装尺寸57.5×57.5mm(3306mm²) | 日月光(ASE) | HBM2e 64GB,1.8 TB/s | 一度是中国最大AI计算芯片封装 [36148] |
| 邃思400(L600):CoWoS封装 | 长电科技(JCET) | HBM3e 144GB,3.6 TB/s | 封装供应商切换至国产 [36430] | |
| 沐曦C600 | 国产Chiplet先进封装 | 未公开(推测长电科技等) | HBM3e 144GB,>3.35 TB/s | 全流程国产化,良率突破92% [35484] |
| 阿里平头哥真武 | 2.5D封装 | 未公开 | HBM2e 96GB(810E) | 2025央视曝光参数 [38289] |
| 砺算科技 | 标准FC-BGA封装,长电科技封装测试 | 长电科技 | 无HBM,GDDR6 12GB | 消费级GPU定位,无需先进封装 [37335] |
| 昆仑芯2代 | 标准FC-BGA(推测),GDDR6显存 | 未公开 | 无HBM,GDDR6 16/32GB | 从1代HBM+2.5D转向GDDR6 [35732] |
| 登临科技 | 标准FC-BGA(推测),12nm成熟工艺 | 未公开 | 无HBM | 12nm芯片无需先进封装 |
| 景嘉微 | 标准GPU封装(推测FC-BGA) | 未公开 | 无HBM,GDDR5 8GB | 14nm成熟工艺 |
| 芯动科技 | 风华1号:自研Innolink Chiplet + GDDR6X;风华3号:未公开 | 未公开 | 风华3号:112GB+超大显存(推测非HBM,可能是GDDR/LPDDR多堆叠) | Innolink为国产Chiplet标准 [38306] |
| 象帝先 | 伏羲A0:未公开(12GB HBM2暗示可能使用2.5D封装) | 未公开 | HBM2 12GB(伏羲A0) | 5nm+12GB HBM2的组合暗示先进封装 |
| 芯瞳半导体 | 标准FC-BGA(推测),12nm | 未公开 | 无HBM,LPDDR4/DDR4 | 低功耗嵌入式GPU |
资深架构师洞察:先进封装是国产GPU仅次于制程的第二大瓶颈。2.5D CoWoS封装需要硅中介层(Silicon Interposer)——本质上是一块高精度硅片,上面布满了微米级别的TSV(硅通孔)和微凸块(Micro-bump)。全球能做这个的不多:台积电CoWoS(全球市占率>90%)、三星I-Cube、Intel EMIB。国内盛合晶微(前中芯长电)是唯一能量产2.5D封装的厂商,但产能和良率与台积电差距明显——华为910C封装环节约有25%的单元在合封过程中失败 [34599]。长电科技、通富微电、华天科技正在快速追赶,但要达到台积电CoWoS的产能和良率水平,至少还需要2-3年。
| 路线 | 厂商 | 特征 |
|---|---|---|
| 完全自研ISA | 华为昇腾、寒武纪、摩尔线程、壁仞、沐曦、天数智芯、燧原、昆仑芯、瀚博、登临、砺算、景嘉微、芯瞳 | 从零定义指令集,自主可控,但软件生态需从零构建 |
| 架构授权+自研 | 芯动科技(风华1号基于Imagination BXT,风华3号转向自研)、象帝先(伏羲基于Imagination DXD)、海光DCU(AMD CDNA派生) | 起步快,但受制于授权方,且面临制裁风险 |
存储带宽是AI芯片的”血管”——算力再高,数据喂不进去也是白搭。
| 厂商 | 存储类型 | 最大容量 | 带宽 | 与NVIDIA H100(HBM3 80GB/3.35TB/s)对比 |
|---|---|---|---|---|
| 华为昇腾910C | HBM2e | 128GB | 3.2 TB/s | 容量优于H100,带宽接近 |
| 海光深算二号 | HBM3 | 96GB | 1.536 TB/s | 约H100的46% |
| 寒武纪思元590 | HBM2e | 96GB | 2.0-2.4 TB/s | 约H100的60-72% |
| 壁仞BR100 | HBM2e | 64GB | 1.6 TB/s | 约H100的48% |
| 沐曦C600 | HBM3e | 144GB | >3.35 TB/s | 容量和带宽均对标H100 |
| 燧原L600 | HBM3e | 144GB | 3.6 TB/s | 容量和带宽均对标H100 |
| 阿里平头哥真武M890 | 未公开 | 144GB | 未公开 | 容量对标H100 |
| 天数智芯天垓100 | HBM2 | 32GB | 1.2 TB/s | 约H100的36% |
| 摩尔线程S4000 | GDDR6 | 48GB | 768 GB/s | 约H100的23%(非HBM路线) |
| 砺算7G100 | GDDR6 | 12GB | 未公开 | 消费级显卡定位 |
| 昆仑芯2代 | GDDR6 | 32GB | 512 GB/s | 约H100的15% |
| 登临Goldwasser | 未公开 | 未公开 | 未公开 | 推理场景对带宽要求较低 |
多卡互联是智算中心的命脉——单卡算力再强,无法高效互联也是”孤岛”。
| 厂商 | 互联技术 | 单卡带宽 | 拓扑支持 | 对标NVIDIA |
|---|---|---|---|---|
| 华为昇腾910C | HCCS | 784 GB/s | 384卡超节点 | NVLink(H100: 900 GB/s) |
| 壁仞BR100 | BLink | 448 GB/s(单卡),总2.3 TB/s | 8卡全互联 | NVLink |
| 沐曦 | MetaXLink | 896 GB/s(8卡互联) | 64卡超节点 | NVLink / NVSwitch |
| 燧原L600 | GCU-LARE | 800 GB/s | 万卡集群 | NVLink |
| 阿里平头哥真武 | ICN | 700 GB/s(810E)/ 800 GB/s(M890) | 64卡全带宽 / 128卡超节点 | NVLink |
| 寒武纪 | MLU-Link | 372 GB/s | 多芯多卡 | NVLink |
| 天数智芯 | 片间互联 | 64 GB/s | 多卡 | 显著落后 |
| 摩尔线程 | MTLink 1.0 | 未公开 | 千卡/万卡集群 | NVLink |
将国产GPU厂商按架构和制程的”代际”做一张直观的定位图:
| 代际梯队 | 制程 | 厂商 | 综合判断 |
|---|---|---|---|
| 第一梯队(接近国际水平) | 7nm+(含等效) | 华为昇腾、沐曦C600、燧原L600、阿里平头哥真武M890 | 架构自研、HBM3e、2.5D封装、互联完整,整体接近H100水平 |
| 第二梯队(量产可用) | 7nm | 海光DCU、寒武纪思元590、壁仞BR100/BR104、天数智芯天垓100、昆仑芯2代、瀚博SV102 | 架构自研,均已量产,但或受制裁影响代工,或存储带宽不足 |
| 第三梯队(图形GPU) | 6nm-14nm | 砺算7G100(6nm)、芯动风华3号、象帝先伏羲A0(5nm)、景嘉微JM9(14nm)、芯瞳GB2062(12nm) | 图形渲染能力为差异化优势,AI计算非主力,但国产图形GPU生态位稀缺 |
| 第四梯队(推理专用) | 12nm | 登临Goldwasser | 高能效推理,12nm成熟工艺,成本优势突出,但训练和图形能力缺失 |
核心结论:国产GPU在架构设计上已基本追平国际主流思路(SIMT、DSA、Chiplet、2.5D封装等均有布局),但在 制程工艺 和 HBM供应 两个物理层面存在系统性代差。SMIC的7nm DUV工艺大约相当于台积电2018-2019年的水平,差距约2-3代。这意味着国产芯片在相同算力下芯片面积更大、功耗更高、成本更贵——这是物理定律决定的,不是架构优化能完全弥补的。未来3年,SMIC能否突破5nm级工艺、CXMT能否量产国产HBM,将是决定国产GPU能否真正进入”第一梯队”的两个决定性变量。
本节数据截至2026年6月。部分初创厂商的芯片微架构细节、精确晶体管数量和芯片面积等底层物理参数未在公开资料中完整披露,标注”未公开”的字段需进一步核验。
对比FP32/FP16稠密算力、显存带宽、互联能力、大模型训练实测表现
AI 训练能力是衡量 GPU/GPGPU 芯片“硬实力”的第一标尺。它不等同于纸面峰值算力(Peak TFLOPS),而是一个由 算力密度 × 显存带宽 × 互联带宽 × 集群线性度 × 软件栈效率 构成的复合函数。本节从 FP32/BF16/FP16 稠密算力、显存带宽、卡间互联、大模型训练实测四个维度,对国产厂商进行系统对比,并以 NVIDIA A100/H100 为基准锚点。
核心洞察:纸面算力是最容易“注水”的指标。架构工程能力的真正差距,体现在显存带宽与算力的比值(Byte/FLOP Ratio)、互联带宽能否支撑有效的张量并行、以及千卡集群线性加速比能否突破 90%——这三者才是区分“能做训练”和“能做好训练”的分水岭。
下表汇总了各厂商旗舰训练产品的关键规格。NVIDIA A100(80GB SXM)和 H100(80GB SXM)作为基准参照。
| 厂商 | 产品型号 | 制程 | FP32 (TFLOPS) | FP16/BF16 (TFLOPS) | 显存 | 显存带宽 | 卡间互联 | 互联带宽 | TDP (W) |
|---|---|---|---|---|---|---|---|---|---|
| NVIDIA(基准) | A100 80GB SXM | 7nm TSMC | 19.5 | 312 | 80GB HBM2e | 2.0 TB/s | NVLink 3.0 | 600 GB/s | 400 |
| NVIDIA(基准) | H100 SXM | 4nm TSMC | 67 | 989 | 80GB HBM3 | 3.35 TB/s | NVLink 4.0 | 900 GB/s | 700 |
| NVIDIA(前沿) | B200 | 4nm TSMC | ~90 | ~2,250 | 192GB HBM3e | 8.0 TB/s | NVLink 5.0 | 1,800 GB/s | 1,000 |
| 华为昇腾 | Ascend 910B2 | 7nm (SMIC) | 94 | 376 | 64GB HBM2e | 0.39 TB/s | HCCS | 392 GB/s | 310 |
| 华为昇腾 | Ascend 910C | 7nm (SMIC) | ~200 | ~800 | 128GB HBM2e/3 | 3.2 TB/s | D2D+HCCS | ~400 GB/s | 550 |
| 寒武纪 | MLU590 | 7nm TSMC | 80 | 256–345 | 80–96GB HBM2e | 2.0–2.7 TB/s | MLU-Link | 372 GB/s | 250–450 |
| 海光DCU | K100_AI | 7nm | 49 | 192 | 64GB HBM2 | 0.90 TB/s | xGMI | 184 GB/s | 350–400 |
| 海光DCU | 深算二号 | 7nm+ | 90 | 180–256 | 96GB HBM3 | 1.54 TB/s | xGMI | 184 GB/s | 350 |
| 壁仞科技 | BR100 | 7nm TSMC | 256 | 1,024 (BF16) | 64GB HBM2e | 2.3 TB/s | BLink | 448 GB/s | 550 |
| 壁仞科技 | BR104 | 7nm TSMC | 128 | 512 (BF16) | 32GB HBM2e | 0.82 TB/s | BLink | 未公开 | 300 |
| 摩尔线程 | MTT S4000 | 未公开 | 25 | 100 | 48GB | 0.77 TB/s | MTLink 1.0 | 240 GB/s | 450 |
| 燧原科技 | 云燧T20 (邃思3.0) | 未公开 | 64 | 256 | 80GB HBM3 | 2.3 TB/s | GCU-LARE | 400 GB/s | 300 |
| 燧原科技 | 云燧T20 (邃思2.0) | 12nm GF | 33.6 | 134.4 | 64GB HBM2e | 1.8 TB/s | GCU-LARE | 300 GB/s | 300 |
| 沐曦 | 曦云C500 OAM | 7nm | 36 (矩阵) | 280 | 64GB HBM2e | 1.8 TB/s | MetaXLink | 未公开 | 450 |
| 沐曦 | 曦云C550 | 7nm | 未公开 | ~240 | 64GB HBM2e | ~1.6–1.8 TB/s | MetaXLink | 896 GB/s (8卡) | 450 |
| 天数智芯 | 天垓100 | 7nm | 37 | 147 | 32GB HBM2 | 1.2 TB/s | 片间互联 | 64 GB/s | 250 |
| 百度昆仑芯 | R300 (OAM) | 7nm | 32 | 128 | 32GB GDDR6 | 0.51 TB/s | 片间互联 | 200 GB/s | ~120 |
| 百度昆仑芯 | P800 (三代) | 未公开 | 未公开 | 345 | 96GB HBM3 | 未公开 | 未公开 | 未公开 | 未公开 |
| 阿里平头哥 | 真武 PPU | 7nm | 未公开 | 未公开 | 96GB HBM2e | 未公开 | 片间互联 | 700 GB/s | 400 |
| 芯动科技 | 风华3号 | 未公开 | 78 | ~156 (估) | 112GB+ HBM | 未公开 | UALink | 1.5 Tbps+ (Chiplet) | 未公开 |
数据来源:华为昇腾 [38513];寒武纪 [38887];海光DCU [38671];壁仞 [39144];摩尔线程 [38436];燧原 [1140];沐曦 [39683];天数智芯 [39387];昆仑芯 [40441];平头哥 [41970];芯动 [15]。NVIDIA 基准 [40365]。
这是资深架构师最关注的指标——它衡量的是 每单位算力能获得多少数据供给。一个形象的比喻:算力是”厨房的灶台功率”,显存带宽是”食材从冰箱到灶台的传送带速度”。灶台再猛,食材供不上也白搭。大模型训练中,Attention 和全连接层的矩阵运算对带宽极度敏感。
| 厂商 | 产品 | FP16 (TFLOPS) | 显存带宽 (TB/s) | Byte/FLOP Ratio | 评价 |
|---|---|---|---|---|---|
| NVIDIA H100 | H100 SXM | 989 | 3.35 | 0.0034 | 黄金标准 |
| NVIDIA A100 | A100 80GB | 312 | 2.0 | 0.0064 | 优秀 |
| 华为昇腾 | 910C | ~800 | 3.2 | 0.0040 | 接近H100 |
| 寒武纪 | MLU590 | 256–345 | 2.0–2.7 | 0.0078 | 接近A100 |
| 燧原 | T20 (邃思3.0) | 256 | 2.3 | 0.0090 | 良好 |
| 壁仞 | BR100 | 1,024 (BF16) | 2.3 | 0.0022 | ⚠️ 算力极高但带宽未同步放大 |
| 沐曦 | C500 OAM | 280 | 1.8 | 0.0064 | 对齐A100 |
| 海光 | K100_AI | 192 | 0.90 | 0.0047 | 偏低 |
| 摩尔线程 | S4000 | 100 | 0.77 | 0.0077 | 中等 |
| 天数智芯 | 天垓100 | 147 | 1.2 | 0.0082 | 中等 |
| 昆仑芯 | R300 | 128 | 0.51 | 0.0040 | ⚠️ GDDR6明显瓶颈 |
| 华为昇腾 | 910B2 | 376 | 0.39 | 0.0010 | ❌ 严重瓶颈 |
架构师点评:Byte/FLOP Ratio 越低越好(单位算力所需带宽越小)。NVIDIA H100 的 0.0034 是当前最优值。910B2 的 0.0010 是因为其显存带宽(392 GB/s)远低于算力(376 TFLOPS)应匹配的水平——这解释了为什么 910B 在部分带宽敏感场景下实际效率仅达 A100 的 80% 而非纸面算力所暗示的超越 [38505]。华为在 910C 上通过 MCM 封装大幅弥补了这一缺陷(3.2 TB/s vs 392 GB/s),是 910B 到 910C 最关键的架构升级 [38565]。
壁仞 BR100 的”Byte/FLOP Ratio 陷阱”:BR100 的 BF16 算力高达 1,024 TFLOPS,但显存带宽仅 2.3 TB/s,Byte/FLOP Ratio 为 0.0022——这意味着它每单位算力获得的带宽反而不如 H100。在超大模型分布式训练中,实际有效算力利用率将显著低于峰值,这是一个容易被忽视的工程陷阱 [39144]。
互联(Interconnect)是决定多卡训练效率的关键。大模型训练依赖张量并行(Tensor Parallelism)、流水线并行(Pipeline Parallelism)和数据并行(Data Parallelism),其中张量并行对卡间带宽要求最高,AllReduce 通信量随模型规模增长而快速增长。
| 厂商 | 互联技术 | 单卡双向带宽 | 单节点拓扑 | 是否对标 NVLink | 跨节点方案 |
|---|---|---|---|---|---|
| NVIDIA | NVLink 4.0 + NVSwitch | 900 GB/s | 8卡全互联 | 基准 | InfiniBand NDR 400GB/s |
| 华为 | HCCS | 392 GB/s (910B) | 4卡全连接 | 弱于NVLink | RoCE 100/400GbE |
| 寒武纪 | MLU-Link | 372 GB/s (590) | 多卡互联 | 弱于NVLink | 未公开 |
| 壁仞 | BLink | 448 GB/s | 8卡全互联 | 中等 | 未公开 |
| 燧原 | GCU-LARE | 400 GB/s (邃思3.0) | 2D Torus | 中等 | RoCE,最高8192卡 |
| 沐曦 | MetaXLink | 896 GB/s (8卡聚合) | 8卡全互联 / 3D Mesh 64卡 | 接近NVLink | 光互连超节点 |
| 摩尔线程 | MTLink 1.0 | 240 GB/s | 2/4/8卡 | 明显弱 | IB 400Gb/s |
| 海光 | xGMI | 184 GB/s | 多卡 | 明显弱 | 未公开 |
| 天数智芯 | 片间互联 | 64 GB/s | 多卡 | ❌ 严重弱 | 未公开 |
| 昆仑芯 | 片间互联 | 200 GB/s | 8卡双环路 | 明显弱 | 多机集群 |
| 阿里平头哥 | 片间互联 | 700 GB/s | 未公开 | 接近NVLink | 未公开 |
架构师点评:互联是国产芯片与 NVIDIA 差距最大的维度之一。NVIDIA 通过 NVSwitch 实现了节点内 8 卡全互联 + 900 GB/s 双向带宽,而国产厂商中仅华为(HCCS 392 GB/s)、壁仞(BLink 448 GB/s)、燧原(GCU-LARE 400 GB/s)和阿里平头哥(700 GB/s)跨过了 400 GB/s 门槛。沐曦的 MetaXLink 在 8 卡聚合带宽上达到 896 GB/s,是国产中最接近 NVLink 4.0 的方案 [39846]。一个值得注意的细节:寒武纪思元 290 的 MLU-Link 曾达到 600 GB/s,但 MLU590 反而降至 372 GB/s——这是架构迭代中的工程取舍,可能与功耗/面积优化有关 [38611]。
NVIDIA H100 引入 FP8 Transformer Engine 后,训练吞吐量可达 FP16 的 2 倍。H100 的 FP8 峰值算力高达 1,979 TFLOPS,而 A100 完全不支持 FP8 [40365]。国产芯片中:
FP8 的缺失意味着国产芯片在训练同等规模模型时,需要更多卡数、更长时间,TCO 显著上升。这不仅是硬件问题——FP8 需要编译器、框架、算子库的全栈支持,软件工程量巨大。
大模型训练对显存的需求呈指数级增长。以 Llama-2-70B 混合精度训练为例,仅模型状态就需要约 280 GB 显存(参数 + 梯度 + 优化器状态),至少需要 4 张 80GB 显存的 GPU [39026]。国产芯片中:
48GB 以下显存的芯片,本质上是”微调卡”而非”预训练卡”。70B 参数模型的全精度预训练,32GB 显存连模型本身都放不下。
NVIDIA 从 DGX A100 到 DGX H100,通过 NVSwitch 实现了节点内 8 卡全互联。国产芯片的互联方案普遍存在两个问题:带宽不足 和 拓扑受限。
例外沐曦 MetaXLink 实现了 8 卡全互联 + 3D Mesh 64 卡超节点,光互连方案可扩展至 128 卡,是国产互联方案中架构最接近 NVIDIA 的 [39839]。
对比INT8算力、能效比、时延、多模型适配能力
推理能力是衡量AI芯片在模型部署阶段实际效能的核心维度,直接决定了智算中心的运营成本(TCO)和最终用户体验。与训练场景不同,推理任务通常对实时性、吞吐量和能效比有极高要求,且其性能瓶颈往往不在于芯片的峰值算力,而在于显存带宽、算子利用率和软件栈的调度效率。本节将系统对比国产主要AI芯片在INT8算力、能效比、实测推理延迟以及多模型/多框架适配广度四个维度的表现。
架构师注:评估推理能力不能仅看纸面INT8 TOPS。推理性能,尤其是大语言模型的逐token生成阶段,是典型的“访存受限”场景。显存带宽决定了模型权重的读取速度,从而直接限制了单卡的理论最大吞吐量。因此,同等TOPS下,显存带宽更高、软件栈更高效的芯片,其实际推理速度可能领先数倍。
| 公司 | 代表芯片 | INT8 TOPS (峰值) | TDP (W) | 能效比 (TOPS/W) | 典型推理延迟 (公开数据) | 多模型适配 | 推理框架支持 |
|---|---|---|---|---|---|---|---|
| 华为昇腾 | 910B | 640 [42010] | 310 | ~2.06 | DeepSeek-R1延迟较H100仅差~5% [18] | ⭐⭐⭐⭐⭐ | MindIE, vLLM-ascend, CANN |
| 华为昇腾 | 910C | ~1,600 [4] | ~600 | ~2.67 | 公开数据有限 | ⭐⭐⭐⭐⭐ | 同上 |
| 寒武纪 | 思元590 | 512 [42072] | 250 | ~2.05 | 70B模型推理延迟38ms [42082]; ResNet-50: 2.7ms [42079] | ⭐⭐⭐⭐ | CNML, vLLM-MLU |
| 海光DCU | 深算二号 | ~1,000 [42035] | 350 | ~2.86 | 风控推理延迟15ms [7] | ⭐⭐⭐⭐⭐ | DCU-Toolkit, ROCm兼容, vLLM |
| 壁仞科技 | BR100 | 2,048 [42054] | 550 | ~3.72 | MLPerf BERT单卡全球第一 [42051] | ⭐⭐⭐ | BIRENSUPA, 受制裁影响生态 |
| 壁仞科技 | BR104 | 1,024 [42057] | 300 | ~3.41 | MLPerf ResNet50单卡第一,能效比达A100的2.11倍 [42062] | ⭐⭐⭐ | 同上 |
| 摩尔线程 | MTT S4000 | 200 [42098] | 450 | ~0.44 | DeepSeek-R1 671B适配通过信通院验证 [42097] | ⭐⭐⭐ | vLLM-MUSA, MUTLASS, Triton-MUSA |
| 摩尔线程 | MTT S5000 | 256 [13] | — | — | DeepSeek-R1 Decode吞吐量≈H20的1.3倍 [14] | ⭐⭐⭐ | 同上 |
| 天数智芯 | 智铠100 | 384 [42113] | 150 | ~2.56 | 提供2-3倍于主流产品实际性能 [42109] | ⭐⭐⭐ | DeepSpark, 兼容CUDA编程模型 |
| 沐曦 | MXN100 (曦思N100) | 160 [42190] | — | — | 公开数据有限 | ⭐⭐⭐ | MXMACA, 兼容CUDA |
| 沐曦 | C600 | — | — | — | 5.2 TOPS/W (FP8, Qwen-7B) [42362] | ⭐⭐⭐⭐ | 同上 |
| 燧原科技 | 邃思2.0 (T20/T21) | 268.8/320 [42151] | — | — | 公开数据有限 | ⭐⭐⭐ | TopsRider |
| 燧原科技 | 云燧i20 | 256 [42149] | — | — | 公开数据有限 | ⭐⭐⭐ | 同上 |
| 百度昆仑芯 | P800 (昆仑芯3代) | ~512 [23] | ~400 | ~1.28 | DeepSeek 671B推理延迟<50ms [42144]; Qwen3-32B吞吐1184 tok/s [42138] | ⭐⭐⭐⭐⭐ | vLLM-Kunlun, 飞桨深度优化 |
| 阿里平头哥 | 含光800 | 820 [42186] | 276 | ~2.97 | ResNet-50: 0.11ms延迟 [42169]; 城市大脑延迟150ms (vs GPU 300ms) [42170] | ⭐⭐ | 仅视觉推理,非通用大模型 |
| 阿里平头哥 | 真武810E | 1,536 [42171] | 400 | ~3.84 | 首Token延迟82ms (优于H20的95ms) [42187]; 吞吐2,800 tok/s [42187] | ⭐⭐⭐⭐ | 全栈自研/阿里云深度优化 |
| 瀚博半导体 | VA10 | 400 [42227] | 150 | ~2.67 | 延迟低至主流GPU的6% (YoloV3) [42227] | ⭐⭐ | VastStream |
| 登临科技 | Goldwasser L | 128-256 [42215] | 40-70 | ~3.2-3.66 | 40W输出128TOPS,实测3倍能效提升 [42217] | ⭐⭐⭐ | GPU+ (兼容CUDA/OpenCL) |
基准参考:
符号说明:⭐ = 仅适配少数模型/框架;⭐⭐⭐⭐⭐ = 适配主流大模型全系列及主流推理框架
能效比(TOPS/W)是衡量推理芯片经济性的关键指标,直接影响智算中心的电力成本和散热需求。以下从公开数据出发,分层级分析:
第一梯队(能效比 > 3.0 TOPS/W):
第二梯队(能效比 2.0-3.0 TOPS/W):
第三梯队(能效比 < 2.0 TOPS/W 或数据不足):
架构师洞察:能效比不能孤立看待。一颗2.0 TOPS/W的芯片如果算子利用率可达80%,其实际有效能效比可能优于一颗3.0 TOPS/W但利用率仅40%的芯片。国产芯片的软件栈效率(算子覆盖率、计算图优化、内存复用等)是决定“有效能效比”的关键变量,也是当前与NVIDIA差距最大的维度之一。
推理延迟是衡量用户体验的核心指标,对实时对话、自动驾驶、金融风控等场景至关重要。以下汇总公开可获取的实测延迟数据:
| 场景 | 硬件平台 | 模型/任务 | 指标 | 延迟 | 对比基准 | 来源 |
|---|---|---|---|---|---|---|
| 大模型推理 | 昆仑芯P800 (8卡) | DeepSeek-R1 671B | 平均延迟 | <50ms | 满足500人团队并发 [42142] | 百度智能云 |
| 大模型推理 | 昆仑芯P800 (8卡) | Qwen3-32B (TP=8) | 吞吐量 | 1,184 tok/s | TTFT 1.8s [42138] | 第三方实测 |
| 大模型推理 | 阿里真武810E | 千问大模型 | 首Token延迟 | 82ms (batch=1) | 优于H20的95ms [42187] | 央视/公开 |
| 大模型推理 | 阿里真武810E | 千问大模型 | 吞吐量 | 2,800 tok/s (batch=64) | 较H20提升~18% [42187] | 央视/公开 |
| 大模型推理 | 昇腾910B | DeepSeek-R1 | 延迟 vs H100 | 仅差~5% | 吞吐量差距<8% [18] | 券商研报 |
| 大模型推理 | 寒武纪思元590 | 70B参数模型 | 推理延迟 | 38ms (优化后) | 优化前120ms [42082] | 第三方实测 |
| 大模型推理 | 寒武纪思元590 | ResNet-50 | 单卡延迟 | 2.7ms (优化后) | 优化前8.2ms [42079] | 蓝耘智算 |
| 大模型推理 | 摩尔线程MTT S5000 | DeepSeek-R1 | Decode吞吐 | ≈H20的 1.3倍 [14] | — | 摩尔线程官方 |
| 视觉推理 | 阿里含光800 | ResNet-50 | 单帧延迟 | 0.11ms [42169] | 性能模式78,563 IPS | 阿里/MLPerf |
| 视觉推理 | 阿里含光800 | 城市大脑(杭州) | 端到端延迟 | 150ms | 传统GPU: 300ms (40颗→4颗) [42170] | 阿里云栖大会 |
| 视觉推理 | 瀚博VA10 | YoloV3 (<4ms场景) | 延迟 | 为主流GPU的 6% [42227] | 性能达主流GPU的3倍+ | 瀚博WAIC 2022 |
| 金融推理 | 海光深算二号 | 风控模型 | 推理延迟 | 15ms | 优化前50ms [7] | 券商/客户 |
重要说明:以上延迟数据来自不同测试环境和模型版本,直接横向比较需谨慎。华为昇腾和阿里真武的部分数据来自厂商或关联方,建议独立第三方交叉验证。标“需进一步核验”的条目表示数据来源的独立性或测试条件透明度不足。
大模型推理时代,“能否跑”比“跑多快”更关键。以下从模型覆盖广度、适配速度、框架兼容性三个维度评估:
| 公司 | DeepSeek系列 | 千问(Qwen) | 文心/飞桨 | LLaMA/GPT系 | ChatGLM/悟道 | 适配速度 | 算子覆盖度 |
|---|---|---|---|---|---|---|---|
| 华为昇腾 | ✅ 全系列 | ✅ 深度优化 | ⚠️ 部分 | ✅ CANN适配 | ✅ | ⭐⭐⭐⭐⭐ 最快 | 高(CANN算子) |
| 海光DCU | ✅ 全系列 | ✅ | ✅ | ✅ 全系列 | ✅ | ⭐⭐⭐⭐⭐ 最快 | >99% (对标CUDA) [42042] |
| 昆仑芯P800 | ✅ 全系列 | ✅ 已验证 | ✅ 飞桨深度优化 | ✅ | ⚠️ | ⭐⭐⭐⭐⭐ | 高(飞桨生态) |
| 寒武纪 | ✅ V3/R1 | ⚠️ | ⚠️ | ⚠️ 部分适配 | ⚠️ | ⭐⭐⭐⭐ | 中高 |
| 阿里真武 | ⚠️ 部分 | ✅ 原生优化 | ❌ | ⚠️ | ❌ | ⭐⭐⭐ | 中(阿里云绑定) |
| 摩尔线程 | ✅ R1 671B验证 | ⚠️ | ⚠️ | ⚠️ 部分 | ⚠️ | ⭐⭐⭐ | 中(MUSA生态) |
| 壁仞科技 | 公开资料有限 | ⚠️ | ⚠️ | ⚠️ 部分 | ⚠️ | ⭐⭐ | 中(受制裁影响) |
| 天数智芯 | ⚠️ | ⚠️ | ⚠️ | ⚠️ 部分 | ⚠️ | ⭐⭐⭐ | 中 |
| 沐曦 | ⚠️ | ⚠️ | ⚠️ | ⚠️ 部分 | ⚠️ | ⭐⭐⭐ | 中(MXMACA) |
| 燧原科技 | ⚠️ | ⚠️ | ⚠️ | ⚠️ 部分 | ⚠️ | ⭐⭐⭐ | 中 |
| 瀚博半导体 | ⚠️ VA1L支持 | ⚠️ | ⚠️ | ⚠️ ChatGPT/LLaMA [42235] | ⚠️ | ⭐⭐ | 中低 |
| 登临科技 | 公开资料有限 | ⚠️ | ⚠️ | ⚠️ 部分 | ⚠️ | ⭐⭐ | 中(兼容CUDA) |
2025-2026关键事件:
| 公司 | INT8算力 (5分) | 能效比 (5分) | 延迟表现 (5分) | 多模型适配 (5分) | 推理框架 (5分) | 综合评分 | 核心评价 |
|---|---|---|---|---|---|---|---|
| 华为昇腾 | 4 | 3 | 4 | 5 | 4 | 4.0 | 推理生态最完整,CANN+vLLM-ascend支撑全场景 |
| 海光DCU | 4 | 3 | 4 | 5 | 5 | 4.2 | 类CUDA兼容性最强,算子覆盖>99%,迁移成本最低 |
| 昆仑芯 | 3 | 3 | 4 | 5 | 4 | 3.8 | 飞桨生态深度绑定,大模型推理性价比突出 |
| 寒武纪 | 3 | 4 | 4 | 4 | 3 | 3.6 | 能效比优秀,推理延迟表现好,生态覆盖待加强 |
| 阿里真武 | 4 | 4 | 4 | 3 | 3 | 3.6 | 阿里云生态绑定,千问模型推理效率领先 |
| 壁仞科技 | 5 | 4 | 4 | 2 | 2 | 3.4 | 算力纸面最强,制裁下量产受限,生态建设停滞 |
| 天数智芯 | 3 | 3 | 3 | 3 | 3 | 3.0 | 推理专用芯片智铠100能效比不错,生态待完善 |
| 沐曦 | 3 | 3 | 3 | 3 | 3 | 3.0 | C600有望提升能效比,FP8原生支持是亮点 |
| 摩尔线程 | 2 | 2 | 3 | 3 | 3 | 2.6 | 全功能GPU定位,推理非其主战场,MUSA生态在建设 |
| 燧原科技 | 3 | 3 | 2 | 3 | 2 | 2.6 | 12nm制程限制推理能效上限,生态相对封闭 |
| 登临科技 | 3 | 4 | 3 | 2 | 3 | 3.0 | 推理能效比优秀,但大模型适配进度滞后 |
| 瀚博半导体 | 3 | 4 | 4 | 2 | 2 | 3.0 | 视觉推理延迟极低,LLM推理生态待补课 |
| 阿里含光800 | 4 | 4 | 5 | 1 | 1 | 3.0 | 视觉推理“性能怪兽”,但非通用大模型推理芯片 |
NVIDIA基准参考:A100推理综合评分约4.2(能效比中等、生态完善、延迟优秀);H100推理综合评分约4.8(FP8原生支持、Transformer Engine、吞吐量显著提升)。
1. “推理能力”不等于“INT8 TOPS”
这是最容易让非专业人士误判的维度。国产芯片普遍在INT8峰值算力上“对标”甚至“超越”A100(如BR100的2,048 TOPS vs A100的624 TOPS),但实际推理吞吐量差距仍然显著。核心原因有三:
2. 推理市场的“分层竞争”格局正在形成
3. 能效比——智算中心OPEX的“隐形杀手”
一个3,000卡的智算中心集群,若每卡功耗差50W,全年电费差距可达约130万元(按0.5元/kWh计算)。在推理场景中,能效比的重要性甚至超过峰值算力。但当前国产芯片的能效比数据普遍缺乏独立第三方测试,厂商宣传的“x倍于A100”需要审慎看待 [42062]。
4. 多模型适配——“能用”是当前核心矛盾
国产芯片在2025年经历了DeepSeek适配潮,主流厂商均完成了DeepSeek系列的适配。但“适配能跑”和“优化到位”之间仍有巨大鸿沟。海光DCU以其类CUDA的HIP接口和>99%的算子覆盖度,在迁移成本上具明显优势 [42042];昆仑芯P800依托飞桨生态和百度内部大规模部署经验,在DeepSeek推理场景中表现出色 [42144];华为昇腾凭借CANN全栈优化和vLLM-ascend开源社区,在适配速度上处于领先 [18]。
对比API支持、像素填充率、纹理速率、驱动成熟度、游戏/专业图形性能
本小节从 图形API兼容性、像素填充率、纹理填充率、驱动成熟度、游戏/专业图形实测性能 五个维度,对国产GPU厂商中真正具备图形渲染能力的产品进行横向对比。需要首先明确一个关键前提:中国国产GPU赛道中,绝大多数厂商做的是AI加速器/GPGPU,不具备完整的图形渲染管线——华为昇腾、寒武纪、海光DCU、壁仞、燧原、昆仑芯、瀚博、天数智芯、沐曦、登临等厂商的产品,本质上是AI/GPGPU计算卡,没有传统意义上的ROP(光栅操作单元)、TMU(纹理映射单元)、显示控制器等固定功能图形硬件,因此本章节仅聚焦于 真正具备图形渲染能力的厂商。
在国产GPU赛道中,“GPU”这个标签被严重泛化。从图形渲染硬件的角度,可以做一个清晰的分类:
| 分类 | 厂商 | 是否有完整图形管线 | 核心特征 |
|---|---|---|---|
| 全功能GPU(图形+计算) | 摩尔线程、砺算科技、芯动科技、象帝先、景嘉微、芯瞳半导体、格兰菲 | ✅ 是 | 具备ROP/TMU/显示控制器,支持图形API |
| GPGPU(有计算无图形) | 壁仞、海光DCU、天数智芯、沐曦、登临 | ❌ 否 | 仅SIMT/SIMD计算,无图形固定功能硬件 |
| AI加速器(DSA) | 华为昇腾、寒武纪、燧原、昆仑芯、瀚博 | ❌ 否 | 纯矩阵加速,无图形管线 |
架构师点评:英伟达之所以”护城河”深,很大程度在于它同时掌握图形和计算两条技术路线,且两者共享底层架构。CUDA生态最初就是为图形着色器设计的,后来才发展成为通用计算平台。国内目前只有摩尔线程、砺算科技等少数厂商在同时走这两条路,其余厂商本质上是在做”去掉图形功能的类CUDA加速器”。
图形API支持是判断GPU”图形能力”的第一道门槛。API版本直接决定了GPU能运行的软件范围——从游戏到专业CAD/CAE再到GIS。
| 厂商 | 产品 | DirectX | Vulkan | OpenGL | OpenGL ES | OpenCL | WHQL认证 |
|---|---|---|---|---|---|---|---|
| 摩尔线程 | MTT S80/S3000 | DX11→DX12 | 1.3 | 4.0 | ✅ | ✅ | — |
| 砺算科技 | 7G100 | DX12 (12.2) | 1.3 | 4.6 | — | 3.0 | ✅ 已通过 |
| 芯动科技 | 风华3号 | DX12 | 1.2 | 4.6 | — | ✅ | — |
| 芯动科技 | 风华2号 | DX11 | ✅ | 4.3 | — | — | — |
| 象帝先 | 伏羲A0 | DX12(推测) | 1.3 | 4.6 | 3.2 | — | — |
| 象帝先 | 天钧一号 | DX11 | 1.1 | 4.6 | 3.2 | — | — |
| 景嘉微 | JH920 | — | 1.1 | 4.0 | 3.2 | 3.0 | — |
| 景嘉微 | JM7200 | — | — | 1.3~1.5 | — | — | — |
| 芯瞳 | CQ2040 | — | ✅ | ✅ | ✅ | — | — |
| 格兰菲 | Arise-GT10C0 | DX11 | — | 4.5 | — | 1.2 | — |
| NVIDIA(参考) | RTX 4060 | DX12U | 1.3 | 4.6 | 3.2 | 3.0 | ✅ |
| AMD(参考) | RX 7600 | DX12U | 1.3 | 4.6 | 3.2 | 2.0 | ✅ |
关键解读:
像素填充率(Pixel Fillrate)和纹理填充率(Texture Fillrate)是衡量GPU图形渲染”吞吐量”的两项核心硬指标,分别反映GPU输出最终像素和纹理采样的能力。
| 厂商 | 产品 | 像素填充率 | 纹理填充率 | 核心频率 | 备注 |
|---|---|---|---|---|---|
| 摩尔线程 | MTT S80 | 158~188 GPixel/s | 151~194 GTexel/s | 1.8 GHz | Fillrate Tester实测 [42699] |
| 摩尔线程 | MTT S3000 | 未公开 | 未公开 | 1.9 GHz | 服务器GPU,侧重计算 |
| 砺算科技 | 7G100/106 | 未公开(96 ROPs) | 未公开(192 TMUs) | ~2.5 GHz | 3DMark FS 26800分 [42679] |
| 芯动科技 | 风华1号(A卡) | 160 GPixel/s | 未公开 | 未公开 | 单芯片 [42470] |
| 芯动科技 | 风华2号 | 48 GPixel/s | 未公开 | 未公开 | GLmark2 >6500 [42464] |
| 象帝先 | 天钧一号 | >128 GPixel/s | 未公开 | 未公开 | 2048 Compute Cores [42737] |
| 景嘉微 | JH920 | 32 GPixel/s | 未公开 | 1.2 GHz | 14nm [42671] |
| 景嘉微 | JM7200 | ~5.2 GPixel/s | ~10.4 GT/s | 1.3 GHz | 28nm,4条渲染管线 [42625] |
| 格兰菲 | Arise-GT10C0 | 48 GPixel/s | 未公开 | 500 MHz | 28nm [42854] |
| 芯瞳 | CQ2040 | 未公开 | 未公开 | 未公开 | 1152核心,FP32 1.3 TFLOPS [42581] |
| NVIDIA(参考) | RTX 3060 | 85.3 GPixel/s | 199.0 GTexel/s | 1.78 GHz | 12GB GDDR6 |
| NVIDIA(参考) | RTX 4060 | 118.0 GPixel/s | 236.0 GTexel/s | 2.46 GHz | 8GB GDDR6 |
| NVIDIA(参考) | GTX 1650 | 53.3 GPixel/s | 93.2 GTexel/s | 1.49 GHz | 入门游戏卡 |
架构师点评:
- 摩尔线程MTT S80的像素填充率(158~188 GPixel/s)在纸面上非常亮眼,甚至超过了RTX 3060(85.3 GPixel/s)和RTX 4060(118 GPixel/s)[42699]。但 填充率≠实际游戏性能——驱动效率和软件优化才是关键瓶颈。MTT S80的硬件底子确实不错,但早期驱动只能发挥其理论能力的30-40%。
- 砺算科技7G100配备192个TMU和96个ROP,理论填充率应接近RTX 4060水平(RTX 4060为96 ROPs/128 TMUs),但注意砺算的ROP数量更多,说明其更侧重像素输出能力 [42691]。
- 景嘉微从JM7200的5.2 GPixel/s到JH920的32 GPixel/s,提升了6倍,但仍仅为GTX 1650的60%左右 [42625]。
理论参数再好看,最终还是要看实测跑分。以下汇总已公开的基准测试成绩:
| 厂商 | 产品 | 3DMark Fire Strike | 3DMark Steel Nomad | 鲁大师 | 对标NVIDIA | 游戏实测 |
|---|---|---|---|---|---|---|
| 砺算科技 | 7G106 | 26800 | 2268 | — | ≈RTX 4060 | 黑神话悟空1080P高画质>70fps [42679] |
| 摩尔线程 | MTT S80 | 约9000(DX11) | — | ~19.8万 | ≈GTX 1650 | 只狼1080P最高画质55fps [42551] |
| 摩尔线程 | MTT S80(v290驱动) | 3.4倍于首发 | — | — | GTX 1060~1650 | CS2 33fps→持续优化 [42552] |
| 芯动科技 | 风华3号 | 未公开 | 未公开 | — | 宣称国际主流 | 古墓丽影/三角洲行动可运行 [42640] |
| 芯动科技 | 风华2号 | — | — | — | — | GLmark2 >6500,Unigine Heaven可运行 [42464] |
| 象帝先 | 伏羲A0 | 未公开 | 未公开 | — | 综合渲染提升1倍+ | 黑神话悟空适配中 [42531] |
| 景嘉微 | JH920 | — | — | — | ≈GTX 1050 | 未公开游戏实测 [42671] |
| NVIDIA(参考) | RTX 4060 | ~27000 | ~2300 | — | — | — |
| NVIDIA(参考) | GTX 1650 | ~9500 | — | ~17.3万 | — | — |
关键解读:
- 砺算科技7G100是国产图形GPU中第一个在3DMark Fire Strike中达到RTX 4060水平的产品(26800 vs 27000),这使得它成为当前国产图形GPU的”性能天花板” [42679]。但需要注意,实际游戏中的驱动优化仍在进行中——《古墓丽影:暗影》实测帧率仅相当于RTX 2060水平,跑分≠游戏体验 [42696]。
- 摩尔线程MTT S80经过36个驱动版本迭代(2022.11-2025.12),Fire Strike成绩提升至首发的3.4倍,从”几乎不能玩游戏”进化到”GTX 1060-1650级别” [42552]。这证明驱动优化的空间巨大,但也说明硬件从发布到”好用”需要2-3年的软件打磨。
- 象帝先伏羲A0是唯一采用5nm+IMG DXD架构的国产图形GPU,宣称160 TFLOPS FP32,已适配《黑神话:悟空》,但公开实测数据有限 [42530]。
驱动是图形GPU的”灵魂”。硬件再强,驱动不行就是”电子砖头”。以下是驱动成熟度的定性评估:
| 厂商 | 驱动更新频率 | 驱动版本数 | 游戏兼容性 | 专业软件兼容 | 稳定性评价 | 关键痛点 |
|---|---|---|---|---|---|---|
| 摩尔线程 | ★★★★☆ 月度更新 | 36+ | 支持DX11/DX12,追踪450+游戏,适配192+ | 部分支持 | 中等,持续改善 | DX11早期几乎不可用,Windows 11稳定性不足 [42541] |
| 砺算科技 | ★★★☆☆ 季度更新 | 较少(新品) | 支持30% 3A游戏 [42562] | 未充分验证 | 新品,待观察 | 刚量产,驱动迭代经验不足,游戏兼容率低 [42562] |
| 芯动科技 | ★★☆☆☆ 不定期 | 少量 | 通过Vulkan兼容运行 | CAD验证中 | 初级 | 风华3号刚发布,生态几乎为零 |
| 象帝先 | ★★☆☆☆ 不定期 | 少量 | 黑神话悟空适配中 | 数字孪生Demo | 初级 | 经历了公司危机,团队稳定性存疑 |
| 景嘉微 | ★★☆☆☆ 缓慢 | 少量 | 基本无游戏 | GIS/CAD/机载显控 | 军工级稳定 | 性能弱,API版本老旧,无游戏生态 [42676] |
| 芯瞳 | ★★☆☆☆ 缓慢 | 少量 | 无 | 办公/信创 | 基础稳定 | 仅GT1030级别,无图形生态 [42585] |
| 格兰菲 | ★★☆☆☆ 缓慢 | 极少量 | 无 | 桌面/商业显示 | 基础稳定 | 28nm落后,Win7驱动不足 [42857] |
| NVIDIA(参考) | ★★★★★ Game Ready月度 | 数百+ | 几乎所有游戏 | 全面支持 | 极致稳定 | — |
架构师点评:图形驱动是GPU领域最”苦”的活——它需要针对每一款3A大作做逐帧优化、排查渲染错误、处理各种API corner case。NVIDIA有数千人的驱动团队和20年积累,国产厂商的驱动团队通常只有几十到几百人,差距是数量级的。摩尔线程的36个驱动版本证明了”勤能补拙”,但离”开箱即用”还有很长的路。
对于国产GPU而言,专业图形市场(信创、政企、工业软件)比消费游戏市场更具现实意义:
| 厂商 | 产品 | CAD兼容 | GIS支持 | 数字孪生 | vGPU虚拟化 | 多屏输出 |
|---|---|---|---|---|---|---|
| 摩尔线程 | S3000/S4000 | 支持 | 支持 | 支持 | ✅ 32路vGPU | 8K HDR |
| 芯动科技 | 风华3号 | SolidWorks实测达国际主流水平 | ✅ | ✅ 8K光追 | ✅ | 6屏8K30 |
| 砺算科技 | 7G100专业版 | 验证中 | 遥感建模 | 实景渲染 | ✅ 16路SRIOV | — |
| 象帝先 | 伏羲A0 | 验证中 | — | ✅ 3D数字孪生Demo | — | — |
| 景嘉微 | JH920 | 中望CAD适配 | ✅ 苍穹GIS | 基础 | — | 4路4K60 |
| 芯瞳 | CQ2040 | 基础CAD | GIS场景 | 基础 | — | 2-3屏 |
| 格兰菲 | Arise-GT10C0 | 基础 | — | — | — | 多路输出 |
亮点:芯动科技风华3号在SolidWorks等CAD工业软件上实现了”性能提升数倍,突破此前国产GPU运行卡顿、几乎无法使用的困境” [42480],这是国产GPU在专业图形领域的一个突破性进展。摩尔线程S3000支持32路vGPU,在云桌面/云渲染场景有独特优势 [42603]。
| 厂商 | API覆盖 | 像素/纹理填充 | 3DMark实测 | 驱动成熟度 | 专业图形 | 综合评分 | 评语 |
|---|---|---|---|---|---|---|---|
| 砺算科技 | 5/5 | 4/5 | 5/5 | 3/5 | 3/5 | 4.0/5 | 国产图形性能天花板,DX12+WHQL,但驱动和生态刚起步 |
| 摩尔线程 | 4/5 | 5/5 | 3/5 | 4/5 | 4/5 | 4.0/5 | 最均衡的全功能GPU,驱动迭代最勤,游戏可用但性能中端 |
| 芯动科技 | 4/5 | 4/5 | 3/5 | 2/5 | 4/5 | 3.4/5 | 风华3号规格亮眼(8K光追+112GB显存),但生态从零开始 |
| 象帝先 | 4/5 | 4/5 | 3/5 | 2/5 | 3/5 | 3.2/5 | 5nm+IMG DXD架构有潜力,但公司危机后有不确定性 |
| 景嘉微 | 2/5 | 2/5 | 2/5 | 2/5 | 3/5 | 2.2/5 | 军工级稳定,但性能落后5-10年,API版本老旧 |
| 芯瞳 | 2/5 | 2/5 | 1/5 | 2/5 | 2/5 | 1.8/5 | GT1030级别,信创办公亮机卡定位 |
| 格兰菲 | 2/5 | 2/5 | 1/5 | 2/5 | 2/5 | 1.8/5 | 28nm落后,性能弱,但像素/纹理填充率尚可 |
国产图形GPU的”性能天花板”在快速抬升:砺算科技7G100(3DMark FS 26800,≈RTX 4060)和摩尔线程S80(像素填充率158 GPixel/s)代表了国产图形GPU的最高水平,但与NVIDIA最新一代(RTX 5060/RX 9060)仍有1-2代差距。
“硬件底子不错,软件拖后腿”是普遍现象:摩尔线程MTT S80的像素填充率甚至超过RTX 3060,但早期驱动只能跑DX9游戏,经过36版驱动迭代才达到GTX 1650-1060的实际游戏水平。这印证了”图形GPU的核心竞争力在软件而非硬件”的行业规律。
真正具备图形能力的厂商仅约7家,占国产GPU/AI加速器厂商总数(约20家)的不到1/3。绝大多数厂商(华为昇腾、寒武纪、海光DCU、壁仞等)本质上是AI加速器,不具备图形渲染管线。
驱动成熟度是最大的短板:NVIDIA有20年+数千人的驱动团队,国产厂商驱动团队规模一般在数十到数百人。差距不是靠”多流几次片”就能弥补的,需要时间和项目积累。
专业图形(CAD/GIS/数字孪生)是国产图形GPU最现实的落地场景:政企信创市场对游戏性能要求不高,但需要稳定的CAD/GIS/多屏显示能力。芯动风华3号在SolidWorks上的突破和摩尔线程的vGPU方案,代表了这一方向的实际进展。
砺算科技的WHQL认证是里程碑事件:通过微软WHQL认证意味着驱动程序达到了Windows生态的基本稳定性要求,这是国产图形GPU走向消费市场的”通行证” [42442]。
对比FP64算力、内存带宽、MPI兼容性、科学计算生态
核心洞察:HPC(高性能计算)是国产 GPU/AI 加速器与国际巨头差距最悬殊的领域,也是区分”真 GPU”与”AI 加速器”的终极试金石。AI 训练只需 FP16/BF16 精度即可运转,而传统 HPC 科学计算——计算流体力学(CFD)、分子动力学、气候模拟、金融量化——高度依赖 FP64 双精度浮点。是否具备完整 FP64 硬件单元、是否兼容 MPI 通信标准、是否拥有科学计算软件栈,是三个不可绕过的硬指标。本章聚焦这三个维度,以 NVIDIA A100/H100 为基准锚点,对国产厂商进行系统性对比与分级。
FP64 双精度是 HPC 场景的核心入口。在国产厂商中,真正具备 FP64 硬件计算能力的厂商屈指可数——绝大多数厂商选择了”AI 优先”路线,将芯片面积全部用于 AI 训练/推理所需的低精度计算(FP16/BF16/INT8),不做 FP64 单元以换取更高的 AI 算力密度。这并非技术缺陷,而是 清晰的商业取舍——问题是,这个取舍使得这些芯片在传统 HPC 科学计算场景中 完全不具备竞争力。
| 厂商 | 产品 | FP64 算力 (TFLOPS) | 支持方式 | 与 NVIDIA 对标 |
|---|---|---|---|---|
| NVIDIA(基准) | A100 SXM 80GB | 9.7 (CUDA Core) / 19.5 (Tensor Core) | 原生 FP64 单元 + Tensor Core | 基准 |
| NVIDIA(基准) | H100 SXM5 | ~34 (CUDA Core) / ~67 (Tensor Core) | 原生 FP64 单元 + Tensor Core | 基准 |
| 海光DCU | 深算一号 Z100 | 10.8 | 原生 FP64 单元 | ≈ A100 的 ~110%(FP64 向量) |
| 海光DCU | 深算二号 K100 | 具备(未公开) | 原生 FP64 单元 | 约 A100 的 60-80%(估) |
| 海光DCU | 深算三号 BW1000 | 30 | 原生 FP64 单元 | ≈ H100 FP64 持平 |
| 华为昇腾 | 910B/910B2 | ❌ 不支持 | — | — |
| 华为昇腾 | 910C | ❌ 不支持 | — | — |
| 寒武纪 | MLU590 | ❌ 不支持 | ASIC,无 FP64 单元 | — |
| 壁仞科技 | BR100 | ❌ 不支持 | 官方明确不含 FP64 | — |
| 燧原科技 | 云燧全系列 | ❌ 不支持 | 所有产品均不支持 | — |
| 天数智芯 | 天垓100/智铠100 | ❌ 不支持 | 天枢架构(下一代)将支持 | — |
| 百度昆仑芯 | R300/P800 | ❌ 不支持 | AI 专用,无 FP64 | — |
| 阿里平头哥 | 真武 PPU | 未公开 | 公开资料有限 | 需进一步核验 |
| 摩尔线程 | MTT S4000 | 宣称支持,未公开具体 TFLOPS | 全功能 GPU 架构 | 短期内为象征性支持 |
| 沐曦 | 曦云 C500 | 宣称支持,未公开具体 TFLOPS | 通用 GPU 架构 | 硬件有但算力未知 |
| 景嘉微 | 景宏系列 | 宣称支持 FP64 | 智算模块 | 未公开具体算力 |
| 芯动科技 | 风华3号 | 未公开 | 宣称”支持多精度” | 需进一步核验 |
数据来源:海光DCU FP64 数据 [43265];壁仞 BR100 不含 FP64 [42915];寒武纪 MLU590 不含 FP64 [43114];燧原不含 FP64 [40121];天数智芯不含 FP64 [30709];昆仑芯不含 FP64 [44610];摩尔线程 S4000 宣称 FP64 [46372];沐曦 C500 宣称 FP64 [44360];景嘉微景宏系列宣称 FP64 [46412];NVIDIA 基准 [45453]。
海光 DCU — 国产 HPC 的”独苗”
海光 DCU 是国产厂商中 唯一拥有明确、可量化的 FP64 双精度算力且经过实际超算场景验证 的产品线。其技术渊源来自 AMD CDNA 架构授权,保留了完整的 FP64 计算单元,这与 NVIDIA 从 Volta 到 Hopper 持续为 HPC 保留 FP64 Tensor Core 的设计哲学一致 [43265]。
一个值得注意的细节:深算三号 BW1000 被业内评价为”披着 AI 外衣的高性能科学计算卡”——其架构设计重心在 FP64 而非 FP8/FP16,甚至 没有原生 FP8 硬件单元,FP8 会触发软件模拟 [43392]。这说明海光 DCU 在 AI 低精度计算上的竞争力相对有限,但在 HPC 双精度计算上具有不可替代的国产替代价值。
华为昇腾 — AI 巨兽,HPC 缺席
华为昇腾 910B/910C 的达芬奇架构(Da Vinci Architecture)核心计算单元是 3D Cube 矩阵乘法阵列(16×16×16 立体阵列),其设计目标为 AI 训练/推理所需的低精度矩阵运算(FP16/BF16/INT8),不含 FP64 双精度矢量计算单元 [45180]。这与 NVIDIA 的路线形成鲜明对比:A100/H100 的每个 SM 中同时包含 FP32/FP64 CUDA Core 和 Tensor Core,HPC 和 AI 能力兼得 [46364]。
昇腾在 HPC 领域的布局是通过 AI4Science(AI 驱动科学计算) 这一替代路径:用 MindSpore Science 科学计算套件(MindSpore SPONGE 分子动力学、MindSpore Flow 流体仿真、MindSpore Earth 气象预报)在 FP16/BF16 精度下做 AI 驱动的科学计算模拟,而非传统 FP64 数值求解 [45830]。盘古气象大模型于 2023 年 7 月登 Nature 正刊,精度超越传统数值预报方法,速度提升 10000 倍 [45773]。但 AI4Science 路线并非万能——对于需要高精度数值解的 CFD 湍流模拟、分子动力学自由能计算等场景,FP64 精度依然不可替代。
其他厂商:全面缺席或停留在”纸面支持”
HPC 科学计算(尤其是 CFD 和分子动力学)对显存带宽的敏感度往往 高于 AI 训练。这是因为 HPC 应用中存在大量稀疏矩阵运算、非规则访存和 Stencil 计算模式,数据复用率远低于 AI 矩阵乘法,导致 Byte/FLOP Ratio 需求更高。简单来说:AI 训练是”食材虽然多但可以反复用同一批”,HPC 是”食材源源不断且几乎不重复”。
| 厂商 | 产品 | 显存类型 | 容量 | 带宽 (TB/s) | 与 H100 差距 |
|---|---|---|---|---|---|
| NVIDIA H100 | SXM5 | HBM3 | 80GB | 3.35 | 基准 |
| NVIDIA A100 | SXM 80GB | HBM2e | 80GB | 2.0 | −40% |
| 华为昇腾 | 910C | HBM2e/3 | 128GB | ~3.2 | −4% |
| 华为昇腾 | 910B3 | HBM3e | 64GB | 1.2 | −64% |
| 海光DCU | 深算三号 | HBM2e/HBM3e | 64-128GB | 1.6 | −52% |
| 海光DCU | 深算一号 Z100 | HBM2 | 32GB | 1.0 | −70% |
| 海光DCU | 深算二号 K100 | GDDR6 | 64GB | 0.896 | −73% |
| 寒武纪 | MLU590 | HBM2e | 80-96GB | 2.0–2.7 | −19-40% |
| 壁仞科技 | BR100 | HBM2e | 64GB | 2.3 | −31% |
| 燧原科技 | 云燧 T20 | HBM3 | 80GB | 2.3 | −31% |
| 沐曦 | 曦云 C500 | HBM2e | 64GB | 1.8 | −46% |
| 摩尔线程 | MTT S4000 | 未公开 | 48GB | 0.77 | −77% |
| 天数智芯 | 天垓100 | HBM2 | 32GB | 1.2 | −64% |
| 百度昆仑芯 | R300 | GDDR6 | 32GB | 0.51 | −85% |
数据来源:NVIDIA [45089];华为昇腾 [46354];海光DCU [43258];寒武纪 [43053];壁仞 [42883];燧原 [40121];沐曦 [39683];摩尔线程 [46377];天数智芯 [43891];昆仑芯 [40441]。
华为昇腾 910C 的 3.2 TB/s 带宽是国产之最,接近 H100 的 3.35 TB/s。但需要指出,910C 是双 Die 封装产品,实际可用带宽可能在两颗 Die 之间分配,单 Die 的带宽可能低于纸面值 [46360]。
海光 DCU 深算二号 K100 使用 GDDR6 而非 HBM,这是一个值得注意的设计选择。GDDR6 的成本远低于 HBM,但带宽也大打折扣(896 GB/s vs HBM2e 的 1.0 TB/s+),这会在 HPC 访存密集型应用中形成瓶颈 [43235]。
摩尔线程 S4000 和昆仑芯 R300 的带宽明显偏低(0.77 TB/s 和 0.51 TB/s),这与其定位为推理/中低端训练产品一致,但在 HPC 场景中几乎不具备竞争力。
寒武纪 MLU590 和燧原 T20 的带宽规格(2.0-2.7 TB/s)在国产中处于较高水平,但这两款芯片均不支持 FP64,因此高带宽无法转化为 HPC 双精度算力——就像一个食材传送带极快但灶台只能做”快餐”的厨房。
MPI(Message Passing Interface)是 HPC 科学计算集群的”通用语言”。绝大多数传统 HPC 应用(OpenFOAM、VASP、GROMACS、WRF 等)都基于 MPI 进行多节点并行通信。在 GPU 加速的 HPC 场景中,GPU-aware MPI(允许 MPI 直接读写 GPU 显存,绕过 CPU 中转)是性能关键。
| 厂商 | 集合通信库 | MPI 兼容性 | GPU-aware MPI | 通信拓扑 | 科学计算 MPI 支持 |
|---|---|---|---|---|---|
| NVIDIA | NCCL | ✅ 标准 MPI | ✅ | NCCL + NVLink + InfiniBand | 完整 |
| 海光DCU | RCCL (ROCm) | ✅ 标准 MPI | ✅ | RCCL + xGMI + InfiniBand | 完整 |
| 华为昇腾 | HCCL | ✅ mpirun 启动 | ⚠️ 有限 | HCCL + HCCS + 灵衢 | 以 AI 集群为主 |
| 寒武纪 | CNCL | ⚠️ Horovod 为主 | ⚠️ 有限 | CNCL + MLU-Link | 弱 |
| 摩尔线程 | MCCL | ✅ 标准 MPI | ⚠️ 发展中 | MCCL + MTLink | Fortran 支持 |
| 沐曦 | MCCL | ✅ 标准 MPI | ⚠️ 发展中 | MCCL + MetaXLink | 测试阶段 |
| 壁仞 | 自研 | ❌ 非 NCCL 标准 | ❌ | BLink | 弱 |
| 天数智芯 | 自研 | ✅ 兼容 | ⚠️ 有限 | 片间互联 | 发展中 |
| 燧原 | GCU-LARE | 未公开 | 未公开 | GCU-LARE | 弱 |
数据来源:海光DCU [46201];华为昇腾 HCCL [45555];寒武纪 CNCL [45750];摩尔线程 MCCL [45538];沐曦 MCCL [45714];壁仞 [45733]。
海光 DCU:唯一具备完整 MPI 科学计算生态的国产方案
海光 DCU 的最大优势在于 全面兼容 AMD ROCm 生态,而 ROCm 又天然兼容标准 MPI 和 GPU-aware MPI。海光自研的 DTK(DCU Toolkit)基于 ROCm 深度定制,其集合通信库 RCCL(ROCm Collective Communications Library)与 NCCL 功能对齐,支持 ring 和 tree 算法,可直接集成到 MPI 应用中 [46201]。这意味着使用 OpenMPI + RCCL 的组合,海光 DCU 可以运行绝大多数传统 HPC 科学计算软件——这在国产芯片中 独一无二。
华为昇腾:AI 集群通信能力强大,但 MPI 科学计算兼容性有限
华为自研的 HCCL(Huawei Collective Communication Library)对标 NCCL,已在 Gitee 开源,支持 AllReduce、AllGather、AlltoAll 等全部集合通信原语 [45227]。昇腾集群可通过 mpirun 启动 HCCL 进程 [45555]。但 HCCL 的设计目标和优化方向是 AI 分布式训练(大规模 AllReduce),而非 HPC 科学计算中常见的 MPI 点对点通信和 Stencil 通信模式。此外,昇腾的鲲鹏 HPC 生态中提供了 Hyper MPI(HMPI)通信库,已适配 170+ 常用 HPC 软件 [45799]。但 HMPI 主要面向 CPU 集群,NPU 侧的 MPI 直通仍需验证。
摩尔线程:Fortran 编译器是 HPC 的差异化优势
摩尔线程是国产厂商中 唯一宣布支持 Fortran 编译器的,这看似不起眼,却是 HPC 领域的一个关键差异化能力 [45544]。航空航天气动模拟、核物理粒子输运、气象预报等大量传统 HPC 代码仍以 Fortran 编写。Fortran 编译器的支持意味着这些代码可以直接在摩尔线程 GPU 上编译运行,而不需要先用 C/C++ 重写。但摩尔线程的 HPC 生态整体仍处于早期阶段,Fortran 支持的实际效果和性能尚待验证。
沐曦:CUDA 原生兼容带来 HPC 移植便利性
沐曦的 MXMACA 软件栈 原生兼容 CUDA,CUDA 源码可直接编译运行,迁移成功率 >92% [45715]。这意味着大量基于 CUDA 的 HPC 加速代码(如 CUDA-aware MPI 应用)可以相对容易地迁移到沐曦平台。但沐曦目前在 HPC 领域的实际部署案例有限,仅在华东师大等高校开展测试 [45725]。
壁仞和寒武纪:生态封闭,HPC 兼容性最弱
壁仞的多卡通信协议 未兼容 NCCL 标准,AllReduce 延迟增加 2.3 倍 [45733]。寒武纪的 CNCL 虽然支持万卡集群(通信延迟 <2μs,千卡线性加速比 0.93),但主要基于 Horovod 分布式训练框架,与标准 MPI 的兼容性有限 [45750]。这两家厂商的 HPC 科学计算软件栈几乎为零。
HPC 的核心竞争力不仅在于硬件,更在于 能跑什么软件。一个科学计算用户(如气候模拟研究员)关心的不是芯片的 TFLOPS,而是:“我的 WRF/GROMACS/OpenFOAM/VASP 能不能在这块卡上跑?能跑多快?“
| 应用 | 领域 | NVIDIA (CUDA) | 海光DCU (ROCm/HIP) | 华为昇腾 | 其他国产 |
|---|---|---|---|---|---|
| OpenFOAM | CFD/流体力学 | ✅ 成熟 | ⚠️ 初步适配(67% A100) | ❌ | ❌ |
| VASP | 第一性原理/材料 | ✅ 成熟 | ⚠️ 技术路径清晰但未验证 | ❌ | ❌ |
| GROMACS | 分子动力学 | ✅ 成熟 | ✅ 通过 ROCm 支持 | ❌ | ❌ |
| LAMMPS | 分子动力学 | ✅ 成熟 | ✅ 通过 ROCm 支持 | ⚠️ MindSpore SPONGE | ❌ |
| WRF | 气象预报 | ✅ 成熟 | ⚠️ 有限 | ⚠️ MindSpore Earth | ❌ |
| ANSYS Fluent | 商业 CFD | ✅ 成熟 | ❌ 商业授权 | ❌ | ❌ |
| MATLAB | 通用科学计算 | ✅ 成熟 | ❌ | ❌ | ❌ |
| BLAS/LAPACK | 基础线性代数 | ✅ cuBLAS | ✅ rocBLAS/hipBLAS | ✅ CANN | ✅ 部分 |
| FFT | 快速傅里叶变换 | ✅ cuFFT | ✅ rocFFT/hipFFT | ✅ CANN | ✅ 部分 |
数据来源:海光DCU OpenFOAM [46176];海光 VASP [45889];华为 MindSpore Science [45830];NVIDIA [45450]。
| 分级 | 厂商 | 说明 |
|---|---|---|
| ★★★★★ | NVIDIA | CUDA 生态覆盖几乎所有 HPC 应用,ISV 全面支持,无需解释 |
| ★★★☆☆ | 海光 DCU | ROCm/HIP 兼容生态提供基础数学库(BLAS/FFT/SPARSE/SOLVER)和部分 HPC 应用支持,OpenFOAM 有初步基准测试,但相比 CUDA 仍有巨大差距 |
| ★★☆☆☆ | 华为昇腾 | MindSpore Science 科学计算套件(SPONGE/Elec/Flow/Earth)覆盖部分领域,盘古气象是亮点,但传统 HPC 应用(OpenFOAM/VASP/GROMACS)支持缺失 |
| ★☆☆☆☆ | 沐曦 / 摩尔线程 | 数学库初步建立(通过 CUDA 兼容),部分高校测试中,但无商业 HPC 部署案例 |
| ☆☆☆☆☆ | 其他厂商 | 寒武纪、壁仞、燧原、天数、昆仑芯等均无 HPC 科学计算生态,属于”零基础” |
将 FP64 算力、内存带宽、MPI 兼容性、科学计算生态四个维度整合,得出国产厂商的 HPC 综合能力评估:
| 厂商 | FP64 算力 | 内存带宽 | MPI 兼容性 | 科学计算生态 | HPC 综合评级 | 一句话总结 |
|---|---|---|---|---|---|---|
| NVIDIA H100 | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | S | HPC 领域的绝对王者 |
| NVIDIA A100 | ★★★★☆ | ★★★★☆ | ★★★★★ | ★★★★★ | A+ | 上一代 HPC 黄金标准 |
| 海光 DCU | ★★★★☆ | ★★★☆☆ | ★★★★☆ | ★★★☆☆ | B+ | 国产 HPC 唯一可选项 |
| 华为昇腾 | ☆☆☆☆☆ | ★★★★☆ | ★★★☆☆ | ★★☆☆☆ | C+ | AI4Science 可,传统 HPC 不可 |
| 沐曦 | ★★☆☆☆ | ★★★☆☆ | ★★☆☆☆ | ★☆☆☆☆ | C | 有 FP64 硬件但生态空白 |
| 摩尔线程 | ★☆☆☆☆ | ★★☆☆☆ | ★★☆☆☆ | ★☆☆☆☆ | C- | Fortran 是亮点,其余待验证 |
| 景嘉微 | ★☆☆☆☆ | 未公开 | 未公开 | ☆☆☆☆☆ | D | 宣称支持但无数据 |
| 寒武纪 | ☆☆☆☆☆ | ★★★★☆ | ★☆☆☆☆ | ☆☆☆☆☆ | D | AI 专用,HPC 不适用 |
| 壁仞 | ☆☆☆☆☆ | ★★★★☆ | ★☆☆☆☆ | ☆☆☆☆☆ | D | AI 算力高但 HPC 零分 |
| 燧原 | ☆☆☆☆☆ | ★★★★☆ | ★☆☆☆☆ | ☆☆☆☆☆ | D | 与 HPC 完全无关 |
| 天数智芯 | ☆☆☆☆☆ | ★★★☆☆ | ★★☆☆☆ | ☆☆☆☆☆ | D | 下一代将支持 FP64 |
| 昆仑芯 | ☆☆☆☆☆ | ★☆☆☆☆ | ★☆☆☆☆ | ☆☆☆☆☆ | D- | 带宽是硬伤 |
从业内视角看,国产 GPU 在 HPC 领域的全面落后,并非偶然,而是 三个结构性原因 的叠加:
第一,市场优先级决定了架构取舍。 AI 大模型训练的市场规模、紧迫性和商业回报远高于 HPC 科学计算。一家国产 GPU 创业公司,把有限的芯片面积和工程资源投入 FP16/BF16 低精度计算(能立刻拿到大模型训练订单),还是投入 FP64 双精度(面向高校和科研院所的小众市场),这是一个不需要思考的选择。海光 DCU 之所以能做 FP64,是因为其技术源自 AMD CDNA——一个本就服务于美国 DOE 超算(Frontier、El Capitan)的架构——而非自主设计。
第二,HPC 软件生态是”先有鸡还是先有蛋”的死锁。 科学计算软件(如 OpenFOAM、VASP、ANSYS Fluent)的 GPU 加速版本几乎全部基于 CUDA 编写,而 CUDA 对 FP64 的支持又深度绑定 NVIDIA 硬件。要打破这个死锁,需要国产厂商同时做三件事:造出有 FP64 的硬件、写出兼容 CUDA 的软件栈、说服 ISV 移植——而这三件事都需要巨额资金、漫长时间和顶级人才。海光 DCU 通过兼容 ROCm/HIP 跳过了第二件事,但仍面临第三件事的挑战。
第三,HPC 集群的互联要求远高于 AI 集群。 AI 训练的通信模式相对规整(AllReduce 为主),而 HPC 科学计算中存在大量 MPI 点对点通信、不规则通信和全局同步——这对互联带宽、延迟、拓扑灵活性和 InfiniBand/RDMA 支持提出极高要求。华为昇腾虽然在 AI 集群互联上做到了 384 卡全互联(灵衢协议),但这是为 AI 训练的 AllReduce 优化的,与 HPC 所需的 MPI 通信模式存在根本性差异 [45509]。
一个冷峻的结论:在未来 3 年内,如果你需要国产芯片做传统 HPC 双精度科学计算,海光 DCU 几乎是唯一的选择。这不是因为它有多好,而是因为其他厂商根本没有做这件事。到 2027-2028 年,如果天数智芯的”天枢”架构如期支持 FP64 [43909]、海光深算三号量产成熟、沐曦和摩尔线程逐步建立 HPC 生态,局面可能会有改善——但到那时,NVIDIA 的 Blackwell/Rubin 架构可能已经将 FP64 算力推向 100+ TFLOPS 级别。国产芯片在 HPC 领域的追赶,依然任重道远。
对比框架支持、算子覆盖度、编译工具链、调试调优工具
软件生态是 GPU/AI 加速器从“能用”走向“好用”的分水岭,也是国产芯片与 NVIDIA 差距最悬殊的维度。CUDA 历经近 20 年积累,拥有超过 500 万注册开发者、数百万个 CUDA 应用、近乎 100% 的算子覆盖率以及一套极为成熟的编译器‑调试器‑性能分析器工具链 [1]。国产厂商的软件栈无一例外地处于追赶状态,但追赶速度、策略和路径差异显著——这直接决定了各厂商在商业化落地中的实际竞争力。
架构师注:评估软件栈成熟度,不能只看“是否支持 PyTorch”。一颗芯片即使纸面支持 PyTorch,如果算子覆盖不全(大量算子回退到 CPU 执行)、编译优化不足(kernel launch 开销大)、缺乏调试工具(精度问题排查困难)、通信库效率低(多卡 scaling 差),其实际使用体验可能比 NVIDIA 同规格产品差 5‑10 倍。软件栈的“最后一公里”往往比硬件本身更难跨越。
| 维度 | 华为昇腾 | 寒武纪 | 海光 DCU | 摩尔线程 | 壁仞科技 | 百度昆仑芯 | 燧原科技 | 沐曦 | 天数智芯 | 阿里平头哥(真武) | 瀚博 | 登临 | 景嘉微 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 软件栈名称 | CANN | NeuWare | DTK | MUSA | BIRENSUPA | XTCL+XTDK | TopsRider | MXMACA | Corex SDK | T-Head SAIL | VastStream | GPU+ | — |
| 自主指令集 | 是(DaVinci) | 是(BANG) | 否(兼容ROCm) | 是(MUSA) | 是(壁立仞) | 是(XPU) | 是(GCU-CARA) | 是 | 是 | 是 | 是 | 是 | 否(图形GPU) |
| CUDA 兼容策略 | 独立生态 | 兼容+自有 | HIP兼容 | MUSIFY转换 | 兼容 | 部分兼容 | 不兼容 | 深度兼容 | 高度兼容 | 深度兼容 | 自有 | 兼容 | 无关 |
| PyTorch 适配 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐ |
| TensorFlow 适配 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐ |
| PaddlePaddle 适配 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐ |
| vLLM 适配 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ | ⭐ |
| Triton 语言支持 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐ |
| 算子覆盖度(估算) | 90%+ | ~85% | 99%+ | 85%+ | 75%+ | 80%+ | 70%+ | 90%+ | 80%+ | 90%+ | 60%+ | 60%+ | <30% |
| 算子数量(公开) | 1500+基础+100+融合 | 上百种 | 2000+ | 10000+ Kernel | 未公开 | 未公开 | 1600+ | 2650核心+2200+高性能 | 未公开 | 丰富的闭源库 | 未公开 | 未公开 | 有限 |
| 编译工具链 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ |
| 调试工具 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐ |
| 性能分析工具 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐ |
| 多卡/集群通信 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐ |
| 开源状态 | 全面开源(2025.8) | 部分开源(Torch-MLU) | 基于ROCm开源 | 部分开源 | 推动中(2026) | 未开源 | 未开源 | 核心代码开源 | 部分开源 | 未开源 | 未开源 | 未开源 | 闭源 |
| 综合评分 | 4.5/5 | 3.5/5 | 4.5/5 | 3.5/5 | 2.5/5 | 3.5/5 | 2.5/5 | 4.0/5 | 3.5/5 | 4.5/5 | 2.0/5 | 2.0/5 | 1.5/5 |
评分说明:综合评分基于框架支持广度(20%)、算子覆盖度(25%)、编译工具链(20%)、调试调优工具(20%)、集群通信(15%)加权计算。⭐数越多越好,但非严格线性对应。
基准参考——NVIDIA CUDA 生态:CUDA Toolkit 12.x,cuDNN/cuBLAS/cuFFT/NCCL 等全套加速库,Nsight Systems/Compute 性能分析,cuda-gdb 调试器,500 万+开发者,近乎 100% 算子覆盖——在所有维度均为满分 5/5。
框架支持是软件生态的“入口”,决定了开发者能否以最低成本将现有模型迁移到国产硬件上。国产厂商的框架适配策略大致分为三类:
| 厂商 | PyTorch 适配方式 | 适配版本范围 | 社区跟进速度 | 其他框架 |
|---|---|---|---|---|
| 华为昇腾 | torch_npu 插件 + 原生 MindSpore | PyTorch 1.11-2.x | 社区版发布后 1-2 月 | TensorFlow, PaddlePaddle, JAX, MindSpore |
| 海光 DCU | HIP 兼容层,直接运行 PyTorch ROCm 版 | PyTorch 2.1-2.4+(DTK 24.04/25.04) | 依赖 ROCm 社区节奏 | TensorFlow, PaddlePaddle, JAX, MXNet |
| 沐曦 | torch_maca 插件 | PyTorch 2.0-2.8 | 较快 | TensorFlow, PaddlePaddle, JAX, Megatron-LM, DeepSpeed [47418] |
| 阿里真武 | 深度兼容 CUDA 生态,原生 PyTorch | 24.11 / 25.02 / 25.07 / 25.11 / 26.04 | 极快(阿里云主力) | Triton 2.3-3.5, vLLM, SGLang, DALI, OpenCV [48627] |
| 天数智芯 | 兼容 CUDA 10.2 生态,主流框架全覆盖 | PyTorch 2.x 及旧版 | 较快 | TensorFlow, PaddlePaddle, vLLM, TensorRT [47385] |
关键洞察:
| 厂商 | 优势 | 短板 |
|---|---|---|
| 寒武纪 | Torch-MLU 开源插件(PyTorch 2.1-2.8),社区版 2 周内适配 [46478] | 早期需定制版 PyTorch(已解决),JAX 支持有限 |
| 摩尔线程 | Torch-MUSA 插件(v2.7.0),JAX/TensorFlow 新增支持(MUSA 5.0) [46813] | TensorFlow 支持刚起步,社区版跟进速度待验证 |
| 百度昆仑芯 | 飞桨深度优化,vLLM-Kunlun 即插即用 [47399] | PyTorch 支持依赖 XTCL 编译器,非飞桨场景体验下降 |
| 壁仞科技 | 兼容 PyTorch/TensorFlow/PaddlePaddle,支持 Triton、TileLang [47263] | 受制裁影响,生态建设速度受限,调试工具薄弱 [47261] |
寒武纪 的 Torch-MLU 策略值得关注:2024 年 9 月,寒武纪开源了 Torch-MLU 原生插件,使得开发者无需安装定制版 Cambricon PyTorch,直接基于社区 PyTorch 安装插件即可使用 MLU [46478]。寒武纪还承诺在社区版本发布后 2 周内实现 MLU 适配 [46478]。
摩尔线程 的 Torch-MUSA 已经迭代至 v2.7.0,并在 MUSA 5.0 中新增了对 TensorFlow 和 JAX 的支持 [46813]。但其框架覆盖的广度和成熟度仍不及华为、海光等第一梯队。
| 厂商 | 现状 | 风险 |
|---|---|---|
| 燧原科技 | 独立 TopsRider 生态,不兼容 CUDA,支持 PyTorch/TensorFlow [47303] | 生态封闭,开发者迁移成本高,长期孤立风险 |
| 瀚博半导体 | 通过 torch-vacc/vllm-vacc 适配,支持 PyTorch 2.8 [47576] | 主要面向推理场景,训练框架支持弱 |
| 登临科技 | 兼容 CUDA/OpenCL,支持 PyTorch/TensorFlow/飞桨 [47545] | 框架适配深度有限,大模型支持尚在完善 |
| 景嘉微 | 通过 vLLM 适配 DeepSeek R1 部分模型 [47674] | 主要为图形 GPU,AI 计算生态极为薄弱 |
架构师注:燧原科技的“不兼容 CUDA”策略是一把双刃剑。从技术自主角度看,完全自研指令集和软件栈避免了知识产权风险;但从商业角度看,这意味着每个模型都需要手动适配,客户迁移成本极高。在 AI 模型快速迭代的今天,这种策略的可持续性存疑。不过,燧原 2026 年 Q1 营收暴增 1474.85% 至 2.87 亿元,说明独立生态在特定场景(如政府项目)仍有一定市场 [47314]。
算子覆盖度是衡量软件生态成熟度的核心指标。一个 PyTorch 模型可能包含数百种算子,如果目标硬件不支持某些算子,就只能回退到 CPU 执行,导致性能断崖式下降。算子覆盖度 90% 和 95% 之间的差距,在实际大模型推理中可能意味着 3‑5 倍的性能差异。
| 厂商 | 公开算子数 | 估算覆盖度 | 覆盖度依据 | 主要短板 |
|---|---|---|---|---|
| 海光 DCU | 2000+ [47000] | 99%+ | DAS 集成 2000+ 算子,CUDA 核心组件功能覆盖率 100% [47024] | 基于 ROCm,AMD 原生不支持的特殊 CUDA 特性 |
| 华为昇腾 | 1500+ 基础 + 100+ 融合 [46496] | 90%+ | MindSpore Ascend 侧算子满足度 90%+ [46996] | 部分小众算子,动态 shape 算子 |
| 沐曦 | 2650 核心 + 2200+ 高性能 [47476] | 90%+ | 覆盖 PyTorch 全部 2650 核心算子,支持 6000+ CUDA 应用 [47421] | 部分最新 PyTorch 算子需跟进 |
| 阿里真武 | 未公开总数 | 90%+ | acdnn/acblas/acfft/acsolver + CUTLASS 3.6 + FlashAttention 全系列 [48627] | 面向阿里云优化,通用场景需验证 |
| 寒武纪 | 上百种基本算子 + 组合 | ~85% | 第三方分析估算 [46863];10 万开发者 vs NVIDIA 500 万+ [46863] | 部分小众 CV/NLP 算子,动态 shape 场景 |
| 摩尔线程 | 10000+ Kernel(MUSACODE 生成)[46835] | 85%+ | Triton-MUSA 100% 覆盖 [46817];GEMM 利用率 98%,FlashAttention 利用率 95% [46809] | 部分老旧 CUDA 库对应算子 |
| 天数智芯 | 未公开 | 80%+ | 450+ AI 模型,900+ 次部署 [47454] | 版本较旧(CUDA 10.2),新特性覆盖不足 |
| 百度昆仑芯 | 未公开 | 80%+ | XDNN 高性能算子库,Day0 无新增算子模型适配 [47405] | 飞桨生态外覆盖度下降 |
| 壁仞科技 | 未公开 | 75%+ | 支持主流框架 + Triton + TileLang [47263] | 受制裁影响,迭代速度慢 |
| 燧原科技 | 1600+ [47317] | 70%+ | 支持 200+ 款主流大模型 [47317] | 不兼容 CUDA,每个模型需手动适配 |
| 瀚博半导体 | 未公开 | 60%+ | VACL 推理接口 + 自研算子库,偏 CV 场景 | 通用 NLP/大模型算子覆盖不足 |
| 登临科技 | 未公开 | 60%+ | GPU+ 兼容 CUDA/OpenCL,但深度有限 | 公开资料有限,需进一步核验 |
| 景嘉微 | 未公开 | <30% | 主要面向图形渲染,计算侧仅 OpenCL 3.0 + 有限 AI 框架适配 | 非 AI 芯片,计算生态薄弱 |
重要说明:以上算子覆盖度部分为估算值(标注“估算”),基于公开资料中可获取的算子数量、框架适配范围、第三方评测等综合判断。确切覆盖度需要在实际工作负载中测试,“公开资料有限”的标注意味着该数字存在较大不确定性。
海光 DCU 的 99%+ 覆盖度 最为亮眼:因为它直接复用 ROCm 生态,而 ROCm 本身经过 AMD 多年打磨,算子丰富度仅次于 CUDA [47027]。但需注意,“对标 CUDA 算子”不等于“100% 兼容 CUDA 所有算子”——部分 NVIDIA 特有的 CUDA 特性(如 CUDA Graph 的高级用法、特定版本的 CUTLASS 模板)可能无法直接映射。
沐曦的 2650 核心算子 + 6000+ CUDA 应用 值得关注:作为一家较晚成立的公司,其算子覆盖度激进追赶,且 CUDA 项目自动迁移成功率超 92% [47424]。但“覆盖”和“高效覆盖”是两回事——沐曦的算子实现在某些场景下可能性能不及 NVIDIA 原生实现。
摩尔线程的 MUSACODE 万级 Kernel 是一个差异化策略:通过 AI 辅助自动生成 Kernel,理论上可以快速覆盖长尾算子 [46835]。但 AI 生成的 Kernel 质量和性能一致性需要持续验证。
编译工具链是软件栈的“发动机”,决定了算子能否被高效地映射到硬件上执行。国产厂商的编译器策略大致分为三类:
| 策略 | 厂商 | 编译器 | 底层框架 | 特点 |
|---|---|---|---|---|
| 自研+开源 | 华为昇腾 | 毕昇编译器 + Ascend C | 自研,2025 年开源 | 开放 AscendNPU IR,对接 Triton/FlagTree/TileLang [46542] |
| 自研+开源 | 寒武纪 | CNCC + CNAS | Clang/LLVM | 编译效率达 CUDA 90% [46565];支持 LTO/PGO 等高级优化 |
| 自研+开源 | 摩尔线程 | MCC + Triton-MUSA + FlagTree + MTX IR | 自研,编译器性能 MUSA 5.0 提升 3 倍 [46809] | 多编译器策略,覆盖不同层级优化需求 |
| 自研+开源 | 沐曦 | MACA 编译器 | 自研 | 支持 MACA C/C++/Fortran [47420] |
| 自研+开源 | 阿里真武 | ppu-clang | Clang/LLVM | 完整兼容 CUDA C/C++ + inline PTX [48800] |
| 兼容复用 | 海光 DCU | hipcc | LLVM(ROCm 社区) | 直接复用 AMD ROCm 编译器,成熟度最高 [47039] |
| 自研闭源 | 百度昆仑芯 | XTCL + XTDK | LLVM(定制化 Clang 前端) | AOT/JIT 双模式,飞桨深度优化 [47289] |
| 自研闭源 | 燧原科技 | JIT 编译器 + C++ DSL | 自研 | 算子融合编译器(ResNet-50 7 层融合,减少 35% kernel launch 开销)[47373] |
| 自研闭源 | 壁仞科技 | BRCC | 自研 | 原创编译器,与 BIRENSUPA 编程模型协同 [47268] |
| 自研闭源 | 天数智芯 | Corex 编译器 | 自研 | 兼容 CUDA 等效 API [47384] |
| 自研闭源 | 瀚博 | AI 编译器 | 自研 | 高度定制,面向推理优化 [47578] |
| 维度 | NVIDIA (nvcc) | 国产标杆 | 其他国产厂商 |
|---|---|---|---|
| 编译速度 | 快(成熟优化) | 华为毕昇/阿里ppu-clang(接近) | 部分厂商编译慢 2-5 倍 |
| kernel launch 开销 | 极低(~3-5μs) | 华为/海光(~5-10μs) | 部分厂商 ~20-50μs |
| 动态 shape 支持 | 成熟 | 华为/寒武纪(持续改善中) | 多数厂商弱 |
| Triton 编译器 | Triton→CUDA(成熟) | 摩尔线程 Triton-MUSA 100% 覆盖 [46817] | 华为/寒武纪/沐曦有支持,其他弱 |
| torch.compile 支持 | 原生 | 沐曦深度支持 PyTorch 2.0 torch.compile [47478] | 多数厂商有限 |
| 自动融合 | 成熟 | 华为 MindSpore 无图融合 [46984] | 燧原 7 层融合优化 [47373] |
架构师注:kernel launch 开销是国产编译器与 NVIDIA 之间最被低估的差距。在推理场景中,尤其是小 batch 推理时,kernel launch 开销可能占据 30-50% 的总延迟。NVIDIA 通过 CUDA Graph 等技术将 kernel launch 开销降至 3-5μs,而多数国产编译器在 10-50μs 区间。这意味着即使算子性能相同,国产芯片在小模型推理场景中可能慢 20-40%。
| 工具类别 | NVIDIA | 华为昇腾 | 寒武纪 | 海光 DCU | 摩尔线程 | 沐曦 | 阿里真武 | 天数智芯 | 其他厂商 |
|---|---|---|---|---|---|---|---|---|---|
| IDE 集成 | Nsight IDE | MindStudio | — | — | MUSA for VS Code | — | — | — | 多数无 |
| GPU 调试器 | cuda-gdb | msDebug | CNGDB | rocGDB [47071] | — | — | PPU GDB [48627] | ixGDB [47456] | 少数有 |
| 内存检测 | cuda-memcheck | msSanitizer | CNSanitizer | — | Compute Sanitizer [46647] | — | PPU MemCheck | — | 多数无 |
| Kernel 性能分析 | Nsight Compute | msProf | CNPerf [46866] | rocprofiler-compute [47220] | Moore Perf Compute [47515] | — | Asight Compute | ixPROF [47456] | 少数有 |
| 系统级时间线 | Nsight Systems | MindStudio Insight | CNPerf-GUI [46890] | rocprofiler-systems [47223] | Moore Perf System [47521] | — | Asight Systems | — | 少数有 |
| 自动调优 | — | AOE [46989] | CNAdvisor [46866] | — | MUSACODE [46835] | — | — | — | 多数无 |
| 设备监控 | nvidia-smi | npu-smi | CNMon | hy-smi | — | — | PPU SMI | ixSMI | 多数有 |
| 精度调试 | — | — | TorchDump [46845] | — | — | MCTX [47482] | — | — | 多数无 |
| 可视化 Roofline | — | msInsight | — | — | Moore Perf Compute [47515] | — | — | — | 多数无 |
第一梯队(工具链完整度接近 NVIDIA 80%+):
华为昇腾:拥有最完整的调试调优工具链——MindStudio 一站式 IDE、msDebug(NPU 侧单步调试)、msSanitizer(内存越界/泄漏检测)、msProf(CANN+NPU 双层性能分析)、AOE 自动调优引擎、MindStudio Insight 可视化分析 [46783]。这套工具链的完整度在国产厂商中遥遥领先,已接近 NVIDIA Nsight 系列的 80% 功能覆盖。
阿里真武:PPU GDB + PPU MemCheck + Asight Systems/Compute + PPU SMI/DCGM,工具链对标 NVIDIA 最为直接 [48627]。受益于阿里云内部大规模使用驱动,工具链成熟度快速提升。
寒武纪:CNGDB(对标 cuda-gdb)+ CNSanitizer(2024-2025 年新增)+ CNPerf(对标 nvprof)+ CNPerf-GUI(对标 Nsight Systems)+ CNAdvisor(自动调优建议)[46866]。寒武纪是除华为外唯一具备“自动性能建议”能力的厂商,CNAdvisor 可根据性能调优经验库自动分析问题并给出优化建议。
第二梯队(基本工具链可用,但生态不完整):
第三梯队(工具链明显薄弱):
架构师注:调试工具是国产 GPU 软件栈中最被忽视但最关键的短板。NVIDIA 的 cuda-gdb 可以在 GPU kernel 中设置断点、单步执行、查看寄存器状态——这对于解决精度问题(如训练 loss NaN、推理结果异常)是不可或缺的。绝大多数国产厂商缺乏这一能力,导致开发者在遇到精度问题时只能“盲调”——通过打印中间结果来二分查找问题,效率极低。这也是为什么很多 AI 团队在国产芯片上“能跑起来但不敢上生产”的核心原因之一。
| 厂商 | 通信库 | 对标 NCCL | 通信效率 | 关键特性 |
|---|---|---|---|---|
| 华为昇腾 | HCCL | ✅ | 高(CANN 8.x 持续优化) | 15 个通信算法,支持 DeepEP 优化 |
| 海光 DCU | RCCL | ✅(原生 ROCm) | 高 | 继承 ROCm 生态,成熟稳定 |
| 阿里真武 | PCCL + PPU DeepEP | ✅ | 高 | 兼容 NCCL API,DeepEP 深度优化 [48637] |
| 摩尔线程 | MCCL | ✅ | 97% [46809] | MT DeepEP 将开源 |
| 寒武纪 | CNCL | ✅ | 中高 | 支持大规模专家并行 [47125] |
| 沐曦 | MCCL | ✅ | 中高 | 高性能集合通信 [47494] |
| 天数智芯 | 自有通信库 | ✅ | 中 | 公开资料有限 |
| 百度昆仑芯 | 自有通信库 | ✅ | 中高 | 昆仑芯超节点,卡间互联带宽提升 8 倍 [47281] |
| 壁仞科技 | 自有通信库 | ✅ | 中 | 受制裁影响,多卡 scaling 数据有限 |
| 燧原科技 | 自有通信库 | ✅ | 中 | 分布式训练效率提升 30% [47367] |
关键差异:通信库的差距不仅在于 API 兼容性,更在于通信算法(AllReduce ring/tree、All-to-All 等)的实现效率和与硬件的耦合优化。华为 HCCL 和阿里 PCCL 在千卡/万卡集群中经过了真实大规模训练验证,而多数其他厂商的通信库尚缺乏大规模验证的公开数据。
| 厂商 | 迁移工具 | 自动化程度 | 迁移效率 | 关键限制 |
|---|---|---|---|---|
| 摩尔线程 | MUSIFY | 自动文本替换 | 90%+ 语法兼容,减少约 50% 迁移时间 [46517] | 需手动验证性能,部分复杂 CUDA 特性需手动适配 |
| 沐曦 | 自动代码转换工具 | 自动+手动 | 成功率 92%+,中等复杂度应用仅需 1 人天 [47424] | 复杂 CUDA 应用可能需额外调优 |
| 阿里真武 | 原生 CUDA 兼容 | 近乎零修改 | 兼容绝大多数 CUDA Runtime/Driver API [48627] | 阿里云生态绑定,外部使用场景有限 |
| 海光 DCU | hipify-clang/hipify-perl | 自动+手动 | 迁移成本降低约 70%,约 15 人天 [46672] | 复杂 CUDA 特性(如 CUDA Graph 高级用法)需手动适配 |
| 寒武纪 | GPU Migration 一键迁移工具 | 自动+手动 | 公开数据有限 | 自定义算子(BANG C 编写)需单独适配 [46565] |
| 天数智芯 | 代码迁移工具 | 自动+手动 | 新一代平台迁移效率提升 80%+ [47245] | 基于 CUDA 10.2,新特性需手动适配 |
| 华为昇腾 | torch_npu 自动映射 + 手动适配 | 半自动 | 典型模型迁移 1-4 周 | 需学习 Ascend C 进行深度优化 |
| 壁仞科技 | 兼容 CUDA 编程模型 | 手动为主 | 迁移隐性成本高,调试工具链不成熟 [47261] | 调试困难是最大痛点 |
| 燧原科技 | 无 CUDA 迁移工具 | 全手动 | 每个模型需独立适配 | 不兼容 CUDA,生态封闭 |
摩尔线程 MUSIFY 的独特价值:MUSIFY 本质是一个基于 JSON 映射表的文本替换工具,将 CUDA 相关的 API、类型、宏替换为 MUSA 对应接口 [46580]。这种方法的优势在于简洁、高效,能解决 90% 以上的语法问题;劣势在于无法处理 CUDA 特有的硬件特性(如 Tensor Core 的特定用法)。但考虑到摩尔线程 GPU 的架构设计本身就高度对标 NVIDIA,这种“语法级别兼容”在实际中效果出奇好——某大型互联网公司通过 MUSIFY 将 AI 模型迁移时间减少了约 50% [46650]。
| 梯队 | 厂商 | 综合评分 | 核心优势 | 核心短板 |
|---|---|---|---|---|
| T1 | 华为昇腾 | 4.5/5 | 工具链最完整(MindStudio 全家桶),CANN 全面开源,MindSpore 自研框架 | 学习曲线陡峭(Ascend C),社区规模仍远小于 CUDA |
| T1 | 海光 DCU | 4.5/5 | 直接复用 ROCm 生态,99%+ 算子覆盖,迁移成本最低 | 底层依赖 AMD ROCm,受上游社区节奏影响 |
| T1 | 阿里真武 | 4.5/5 | 深度 CUDA 兼容,阿里云全栈优化,工具链对标 NVIDIA | 生态封闭在阿里云体系内,外部推广路径不清晰 |
| T2 | 沐曦 | 4.0/5 | 算子覆盖广(2650 核心),CUDA 迁移成功率 92%+,开源策略 | 成立时间短,大规模生产验证不足 |
| T2 | 寒武纪 | 3.5/5 | 上市资金充裕,Torch-MLU 开源策略,工具链迭代快 | 架构来源争议,算子覆盖度 85%,开发者仅 10 万 |
| T2 | 摩尔线程 | 3.5/5 | MUSIFY 迁移效率高,MUSA 5.0 全面升级,全功能 GPU 路线 | 图形驱动成熟度不足,AI 算力偏低,财务压力 |
| T2 | 百度昆仑芯 | 3.5/5 | 飞桨深度绑定,百度内部大规模验证,P800 性能强劲 | 飞桨生态外体验下降,独立上市进程不确定 |
| T2 | 天数智芯 | 3.5/5 | CUDA 兼容度高,PD 分离技术,DeepSpark 社区 | 技术路线偏旧(CUDA 10.2),新特性跟进慢 |
| T3 | 壁仞科技 | 2.5/5 | 硬件架构先进(Chiplet+7nm),MLPerf 成绩亮眼 | 制裁影响生态建设,调试工具链弱,量产受阻 |
| T3 | 燧原科技 | 2.5/5 | 全自研独立生态,1600+ 算子,200+ 模型适配 | 不兼容 CUDA,生态封闭,迁移成本极高 |
| T4 | 瀚博半导体 | 2.0/5 | 推理专用优化,能效比突出 | 软件栈偏窄(推理为主),通用性不足 |
| T4 | 登临科技 | 2.0/5 | 能效比高,GPU+ 异构架构 | 软件栈公开资料极少,生态规模有限 |
| T5 | 景嘉微 | 1.5/5 | 图形 API 覆盖完整(JM11),信创生态深厚 | 非 AI 计算芯片,通用计算生态薄弱 |
| T5 | 象帝先 | 1.5/5 | 伏羲 DXD 架构原生支持最新图形 API | 2024 年危机重创软件生态,驱动公开分发渠道缺失 |
“伪兼容”vs“真兼容”:部分厂商宣称“支持 PyTorch”,但实际仅支持 PyTorch 的一个子集——大量算子回退到 CPU 执行,导致实际性能远低于预期。海光 DCU 和阿里真武的“真兼容”策略(通过 ROCm/自研 CUDA 兼容层)在开发者体验上显著优于其他厂商。
开源是生态加速器,但不是万能药:华为 2025 年 8 月 CANN 全面开源是标志性事件,MindSpore 社区已有 3.7 万核心贡献者 [46765]。但开源不等于生态繁荣——需要持续的社区运营、文档建设、开发者支持。寒武纪 Torch-MLU 开源和沐曦 MXMACA 开源都是积极的信号,但尚需时间验证其社区牵引力。
调试工具链是最大短板:除华为昇腾和阿里真武外,几乎所有国产厂商的 GPU 调试能力都严重不足。缺乏类似 cuda-gdb 的 kernel 级调试器,意味着开发者在遇到精度问题时只能“盲调”。这是国产芯片从“预研测试”走向“生产部署”必须跨越的门槛。
CUDA 迁移工具的两条路径:摩尔线程 MUSIFY 的“语法替换”路线和阿里真武的“原生兼容”路线代表了两种不同的解题思路。前者实施成本低但覆盖度有限,后者体验最佳但技术门槛极高。目前看,阿里真武的路线更接近“终极方案”,但仅限于阿里云生态;MUSIFY 的路线更具备跨厂商推广价值。
独立生态路线的生存空间:燧原科技的不兼容 CUDA 策略在信创/政府市场仍有生存空间(2026 年 Q1 营收暴增 1474.85% 证明了这一点 [47314]),但长期来看,随着 AI 模型迭代加速,独立生态的维护成本将指数级增长。除非燧原能建立起足够大的开发者社区形成正向循环,否则可能被边缘化。
对比对CUDA代码的兼容性、迁移工具链、需重写的代码比例
本小节从 CUDA兼容策略、迁移工具链、代码修改比例、典型迁移人天、算子覆盖度、关键限制 六个维度,对国产GPU/AI加速器厂商的CUDA代码迁移难度进行系统性对比。这是产业投资人和技术决策者最关心的核心问题之一——迁移成本直接决定了国产替代的可行性和TCO(总拥有成本)。
在展开之前,需要先厘清一个关键概念:“CUDA兼容”是一个被严重泛化的营销术语。实际上,国产厂商对CUDA的“兼容”至少存在四个层级:
| 层级 | 技术含义 | 典型厂商 | 实际迁移难度 |
|---|---|---|---|
| L1:二进制兼容 | 直接运行CUDA编译后的二进制文件(.cubin) | 无任何国产厂商能做到 | 零迁移 |
| L2:源码级API兼容 | CUDA源码重新编译即可运行,API一对一映射 | 摩尔线程、沐曦、天数智芯、海光DCU、壁仞 | 低-中 |
| L3:框架适配层 | 通过PyTorch/TensorFlow插件拦截调用,上层代码基本不改 | 燧原、昆仑芯、登临 | 中低 |
| L4:完全自研软件栈 | 需用自研编程语言/API重写,无CUDA兼容层 | 华为昇腾、寒武纪 | 高 |
架构师点评:NVIDIA在2024年通过CUDA 11.6+ EULA明确禁止通过转译层在非NVIDIA硬件上运行CUDA程序 [49038]。这意味着L1层级的二进制转译路线(如ZLUDA方案)已被法律封堵。目前所有国产厂商的”兼容”走的都是L2/L3层级的源码级重新编译路线,这在法律上是合规的——但代价是需要开发者投入真实的工程时间进行代码修改、重新编译、调试和性能调优。
| 厂商 | 软件平台 | 兼容层级 | 核心迁移工具 | 编程模型 | 与CUDA的关系 |
|---|---|---|---|---|---|
| 摩尔线程 | MUSA | L2 | MUSIFY(自动源码转换) | MUSA C/C++,≈CUDA超集 | API一对一映射,.cu→.mu |
| 沐曦 | MXMACA | L2 | cu-bridge(编译桥接)+ MACA SDK | MXMACA C/C++,≈CUDA | 源码级兼容,重新编译即运行 |
| 天数智芯 | IXUCA | L2 | CoreX SDK + 兼容头文件 | CoreX C/C++,≈CUDA | libcuda.so替换,类CUDA API |
| 海光DCU | DTK (ROCm) | L2 | hipify-clang(自动转换)+ HIP | HIP C/C++,≈CUDA子集 | 通过ROCm生态间接兼容CUDA |
| 壁仞科技 | BIRENSUPA | L2 | BRCC编译器 + 兼容头文件 | BIRENSUPA C/C++ | 部分API兼容,需手动迁移 |
| 登临科技 | Hamming | L2 | GPU+ 工具链 | GPU+ C/C++,兼容CUDA/OpenCL | 硬件直接兼容CUDA加速 |
| 燧原科技 | 驭算TopsRider | L3 | torch_gcu.transfer_to_gcu() | GCU C/C++(自研) | PyTorch层拦截,非CUDA兼容 |
| 昆仑芯 | XPU SDK | L3 | vLLM-Kunlun Plugin + XTCL | XPU C/C++(自研) | 框架层伪装CUDA后端 |
| 阿里平头哥 | 真武PPU SDK | L2 | 自研工具链(详情未公开) | PPU C/C++ | 宣称CUDA兼容度>99% |
| 华为昇腾 | CANN / CANNNext | L4 | torch_npu + 算子映射工具 | Ascend C / TBE(自研) | 完全自研,需代码重写 |
| 寒武纪 | Cambricon NeuWare | L4 | BANG C编译器 + CNRT | BANG C(自研) | 完全自研,需代码重写 |
| 瀚博半导体 | VastStream / VUCA | L3 | VastStream SDK | VUCA C/C++(自研) | 框架层适配,非CUDA兼容 |
| 景嘉微 | — | L4 | OpenCL工具链 | OpenCL | 仅OpenCL,无CUDA路径 |
| 厂商 | 自动化迁移工具 | 自动化程度 | 典型转换范围 | 需手动处理的部分 |
|---|---|---|---|---|
| 摩尔线程 | MUSIFY | ★★★★☆ | CUDA语法→MUSA语法,90%+自动转换 [48860] | 性能调优、warp-level原语、第三方库依赖 |
| 沐曦 | cu-bridge | ★★★★★ | CUDA源码→MXMACA,92.94%直接运行 [48991] | 编译配置(约6%项目需微调),NVML相关代码 |
| 海光DCU | hipify-clang | ★★★★☆ | CUDA API→HIP API,自动转换率高 | ROCm版本兼容性、miopen缓存问题 [48844] |
| 天数智芯 | 兼容头文件+libcuda.so替换 | ★★★☆☆ | CUDA API调用→CoreX API | warp size差异(64 vs 32),__syncwarp()等 [49073] |
| 壁仞科技 | BRCC编译器 | ★★☆☆☆ | 部分CUDA API→BIRENSUPA API | 核心算法重构~35%,矩阵运算优化 [48918] |
| 登临科技 | Hamming工具链 | ★★★☆☆ | CUDA/OpenCL→GPU+ | 性能调优,片内异构调度优化 |
| 燧原科技 | transfer_to_gcu() | ★★★☆☆ | PyTorch CUDA调用→GCU调用 | 自定义CUDA Kernel需重写为TopsCC |
| 昆仑芯 | vLLM-Kunlun Plugin | ★★★☆☆ | vLLM框架层CUDA后端→XPU后端 | 非vLLM场景需手动适配 |
| 华为昇腾 | torch_npu + KernelCAT | ★★☆☆☆ | .cuda()→.npu(),部分算子自动映射 | 自定义CUDA Kernel需重写为Ascend C/TBE [49243] |
| 寒武纪 | BANG C编译器 | ★☆☆☆☆ | 无自动CUDA转换 | 全量代码重写为BANG C [48944] |
这是投资人最关心的量化指标。以下数据基于公开技术文档、社区反馈和第三方评测综合得出:
| 厂商 | 典型CUDA代码修改比例 | 简单模型迁移 | 中复杂度模型迁移 | 大模型训练迁移 | 关键障碍 |
|---|---|---|---|---|---|
| 沐曦 | <5% | 0.5人天 | 1人天 [48979] | 3-5人天 | NVML依赖、极少算子不支持 |
| 摩尔线程 | <10% | 0.5-1人天 | 2-5人天 | 5-10人天 | MUSA算子覆盖度不完全,性能调优 |
| 海光DCU | 10-15% | 1-2人天 | 15人天 [48847] | 20-40人天 | ROCm版本兼容,miopen精度差异 |
| 天数智芯 | 15-20% | 1-2人天 | 5-10人天 | 15-30人天 | warp size=64,warp原语需重写 |
| 阿里平头哥 | <5%(宣称) | 不确定 | 不确定 | 不确定 | 公开资料有限,需进一步核验 |
| 壁仞科技 | 30-40% | 3-5人天 | 15-25人天 | 35%核心算法重构 [48918] | 高性能数学库欠缺,通信协议不兼容NCCL |
| 登临科技 | 20-30% | 2-3人天 | 10-15人天 | 不确定 | 片内异构调度复杂,需针对性优化 |
| 燧原科技 | 20-30% | 1-2人天 | 5-10人天 | 10-20人天 | 自定义kernel需重写TopsCC,编译时间较长 |
| 昆仑芯 | 25-35% | 2-3人天 | 8-15人天 | 20-30人天 | 仅vLLM场景较成熟,训练场景适配弱 |
| 华为昇腾 | 30-50% | 3-5人天 | 15-30人天 | 40-90人天 | 达芬奇架构与CUDA线程模型本质差异 [49243] |
| 寒武纪 | 50-70% | 5-10人天 | 20-40人天 | 60-120人天 | BANG C与CUDA编程模型完全不同 [48944] |
| 瀚博半导体 | 40-60% | 不确定 | 不确定 | 不确定 | 公开资料有限,软件栈成熟度较低 |
| 景嘉微 | N/A | N/A | N/A | N/A | 无CUDA兼容路径,仅有OpenCL |
关键数据解读:
- 沐曦的92.94%直接适配率 来自于对GitHub 4490个活跃CUDA项目的实测,仅约6%需要微调(主要是编译配置而非业务逻辑),这是目前公开数据中最亮眼的成绩 [48991]。
- 海光DCU的”15人天” 是社区实测数据,包括了从环境搭建到完整迁移的全流程 [48847]。DTK的HIP编程模型与CUDA高度相似,学习曲线相对平缓。
- 壁仞的35%核心算法重构 反映了其自研架构与CUDA线程模型的显著差异,尤其是在矩阵运算和通信原语方面 [48918]。
- 华为昇腾和寒武纪的高迁移成本 源于其底层硬件架构(达芬奇/MLUarch)与CUDA的SIMT模型本质不同——这不是简单的API翻译问题,而是计算范式转换问题 [49243]。
算子覆盖度直接决定了”迁移后能不能跑”以及”跑起来后性能怎样”。以下汇总各厂商对主流算子库的覆盖情况:
| 厂商 | BLAS库 | DNN库 | FFT库 | 通信库 | 稀疏库 | PyTorch算子覆盖度 | 大模型关键算子 |
|---|---|---|---|---|---|---|---|
| 摩尔线程 | muBLAS | muDNN | muFFT | MCCL | — | ~85% | FlashAttention✅, GEMM✅ |
| 沐曦 | MXMACA-BLAS | MXMACA-DNN | — | MetaXLink | — | ~90% | FlashAttention✅, GEMM✅ |
| 海光DCU | rocBLAS | MIOpen | rocFFT | RCCL | rocSPARSE | ~80%(ROCm生态) | FlashAttention✅, GEMM✅ |
| 天数智芯 | CoreX-BLAS | CoreX-DNN | CoreX-FFT | CoreX-CCL | — | ~75% | FlashAttention⚠️, GEMM✅ |
| 壁仞科技 | BIREN-BLAS | BIREN-DNN | — | BIREN-CCL | — | ~65% | FlashAttention⚠️, GEMM⚠️ |
| 登临科技 | GPU+ BLAS | GPU+ DNN | — | — | — | ~70% | FlashAttention⚠️ |
| 燧原科技 | TopsBLAS | TopsDNN | — | ECCL | — | ~75% | FlashAttention⚠️, GEMM✅ |
| 昆仑芯 | XDNN-BLAS | XDNN | — | — | — | ~70% | FlashAttention⚠️ |
| 华为昇腾 | Ascend BLAS | Ascend DNN | — | HCCL | — | ~80% | FlashAttention✅, GEMM✅ |
| 寒武纪 | CNBLAS | CNDNN | — | CNCCL | — | ~70% | FlashAttention⚠️, GEMM⚠️ |
| NVIDIA(参考) | cuBLAS | cuDNN | cuFFT | NCCL | cuSPARSE | 100% | FlashAttention✅, GEMM✅ |
架构师点评:算子覆盖度的”最后一公里”是最难的。厂商宣称覆盖80-90%的常用算子并不难,但剩下的10-20%往往是特定模型或特定场景下的关键算子——这些”长尾算子”的缺失可能导致模型无法运行或精度损失。此外,“覆盖”不等于”优化到位”:同一个FlashAttention算子,在NVIDIA H100上经过3代迭代优化,在国产GPU上可能只是功能可用但性能差距显著。
2024年3月,NVIDIA在CUDA 11.6+版本的EULA中新增条款:禁止对使用CUDA SDK生成的输出进行逆向工程、反编译或反汇编,以将此类输出工件转换为目标非NVIDIA平台[49038]。这对国产GPU厂商的CUDA兼容策略产生了直接冲击。
| 受影响的技术路线 | 是否被EULA禁止 | 代表厂商 | 影响程度 |
|---|---|---|---|
| 二进制转译层(ZLUDA式) | ❌ 被禁止 | 无国产厂商采用此路线 | 直接封死该路线 |
| 源码级重新编译(MUSIFY/HIPify式) | ✅ 合规 | 摩尔线程、海光、沐曦 | 不受影响 |
| 自研API兼容(接口模仿但独立实现) | ✅ 合规 | 壁仞、天数智芯、登临 | 不受影响 |
| 完全自研(无CUDA兼容) | ✅ 完全合规 | 华为昇腾、寒武纪、燧原 | 不受影响 |
摩尔线程在事件发生后第一时间声明:MUSA/MUSIFY不涉及NVIDIA EULA相关条款,开发者可以放心使用[48867]。关键区别在于:MUSIFY是 源码到源码的转换工具,而非运行时二进制转译——它转换的是开发者自己的CUDA代码,而非NVIDIA的CUDA SDK产物。
法律风险提示:虽然目前源码级兼容路线在EULA文本下似乎是合规的,但NVIDIA未来可能进一步收紧条款或通过技术手段(如加密、硬件锁定)增加兼容难度。这是所有走CUDA兼容路线的国产厂商面临的长期不确定性 [49044]。
| 排名 | 厂商 | 综合迁移难度 | 核心优势 | 核心短板 |
|---|---|---|---|---|
| 1 | 沐曦 | ★☆☆☆☆(最低) | 92.94%直接适配,cu-bridge编译桥接,1人天迁移 | 生态未经大规模第三方验证 |
| 2 | 摩尔线程 | ★☆☆☆☆(很低) | MUSIFY自动转换90%+,MUSA Toolkit完整 | 算子覆盖度约85%,性能调优需额外工作 |
| 3 | 海光DCU | ★★☆☆☆(较低) | ROCm生态成熟,HIP编程模型与CUDA高度相似 | ROCm版本依赖复杂,需额外环境配置 |
| 4 | 阿里平头哥 | ★★☆☆☆(较低) | 宣称>99% CUDA兼容,真武810E自研 | 公开资料有限,需核验;仅阿里云生态 |
| 5 | 天数智芯 | ★★★☆☆(中等) | 类CUDA API,libcuda.so替换方案 | warp size=64差异,需官方适配版PyTorch |
| 6 | 登临科技 | ★★★☆☆(中等) | 硬件直接兼容CUDA加速,GPU+架构 | 片内异构调优复杂,生态较窄 |
| 7 | 燧原科技 | ★★★☆☆(中等) | 框架层一键迁移,PyTorch体验好 | 自研GCU架构不兼容CUDA,自定义kernel需重写 |
| 8 | 昆仑芯 | ★★★☆☆(中等) | vLLM生态优秀,百度飞桨深度适配 | 仅推理场景成熟,训练场景迁移难度大 |
| 9 | 壁仞科技 | ★★★★☆(较高) | 算力高,BIRENSUPA平台完整 | 35%核心算法需重构,数学库效率低 |
| 10 | 华为昇腾 | ★★★★☆(较高) | CANNNext改善体验,DeepSeek V4全栈迁移 | 达芬奇架构与CUDA本质差异,迁移是系统工程 |
| 11 | 寒武纪 | ★★★★★(最高) | NeuWare日趋成熟,Triton支持 | BANG C编程模型完全不同,全量代码重写 |
| 12 | 瀚博半导体 | ★★★★★(最高) | VUCA统一计算架构 | 软件栈不成熟,社区生态薄弱 |
| 13 | 景嘉微 | ★★★★★(最高) | 无 | 仅OpenCL,无CUDA迁移路径 |
“零成本迁移”是营销话术,不是技术现实。即使是沐曦(92.94%直接适配率)和摩尔线程(90%+自动转换率),也需要真实的工程投入进行性能调优、精度验证和长尾算子适配。只有最简单的PyTorch模型才能做到”改一行代码就跑”。
L2(源码级兼容)路线是当前最优解。沐曦、摩尔线程、海光DCU三家代表了国产GPU在CUDA迁移方面的一线水平,它们通过”源码自动转换+类CUDA API”的策略,将迁移成本控制在可接受范围内(1-15人天),是当前国产替代最现实的路径。
华为昇腾的CANNNext和CUDA兼容转向值得关注。昇腾950PR配合CANNNext引入了CUDA语法兼容层,虽然仍是”翻译CUDA”而非”原生兼容”[49286],但标志着华为从”完全自研独立生态”向”兼容并蓄”的战略转变,这会显著降低其迁移门槛。
NVIDIA EULA是悬在”兼容路线”头上的达摩克利斯之剑。虽然当前源码级转换是合规的,但NVIDIA可能在法律和技术层面持续收紧。这是所有走CUDA兼容路线的国产厂商面临的系统性风险。
迁移成本不是唯一考量。迁移后的性能(算力利用率MFU)、稳定性(72小时长稳不掉卡)、精度对齐(loss一致性)和集群扩展能力(多卡线性加速比),往往比代码迁移本身更具挑战性。这些在后续章节中会进一步展开。
待进一步核验的信息:
对比已公开营收、客户数量、出货量、商业化阶段
核心洞察:商业化是检验国产 GPU/AI 加速器厂商的终极标尺。中国国产 GPU 赛道已从”PPT 造芯”进入”营收兑现”阶段,但 营收规模与市值之间存在巨大剪刀差——头部上市公司寒武纪 2024 年营收 11.74 亿元、市值一度超 3000 亿元,摩尔线程 2024 年营收 4.38 亿元、上市首日对应市值超 4000 亿元。与之相对,华为昇腾以 2024 年超 64 万片出货量、2025 年预计超 100 亿美元销售额遥遥领先,是唯一真正在大规模商业场景中与 NVIDIA 正面竞争的国产厂商。海光信息以 91.62 亿元营收和 19.31 亿元净利润成为 唯一实现规模化盈利的国产 GPU/AI 加速器上市公司。本章从营收规模、出货量、客户结构、毛利率、盈利能力和商业化阶段六个维度,对国产厂商进行系统对比与分级。
| 厂商 | 2022 营收 | 2023 营收 | 2024 营收 | 2025 营收(已披露/预测) | 数据来源 | 商业化阶段 |
|---|---|---|---|---|---|---|
| 华为昇腾 | 未单独披露 | 鲲鹏+昇腾生态产值 300-400 亿 | 算力卡营收目标 200 亿 | ~$102.68 亿销售额(Bernstein) | [49337] | ✅ 大规模放量 |
| 海光信息 | 51.25 亿 | 60.12 亿 | 91.62 亿 | 155-228 亿(券商预测) | [49319] | ✅ 规模盈利 |
| 百度昆仑芯 | ~2 亿(估) | 未公开 | ~20 亿 | ~35 亿+(预计) | [49532] | ✅ 批量出货 |
| 寒武纪 | 7.29 亿 | 7.09 亿 | 11.74 亿 | 2025Q1 营收暴增 42 倍 | [49373] | ✅ 批量出货 |
| 阿里平头哥 | 未单独披露 | 未单独披露 | 未单独披露 | 累计出货 56 万片 | [49650] | ✅ 大规模部署 |
| 沐曦 | 42.64 万 | 0.53 亿 | 7.43 亿 | 15-19.8 亿(预计) | [49522] | ✅ 批量出货 |
| 燧原科技 | 0.90 亿 | 3.01 亿 | 7.22 亿 | 2025 前三季度 5.4 亿 | [49449] | ✅ 批量出货 |
| 天数智芯 | 1.89 亿 | 2.89 亿 | 5.40 亿 | 2025H1 3.24 亿 | [49452] | ✅ 批量出货 |
| 摩尔线程 | 0.46 亿 | 1.24 亿 | 4.38 亿 | 2025 全年 15.05 亿 | [49363] | ✅ 批量出货 |
| 景嘉微 | 11.54 亿 | 7.13 亿 | 4.66 亿 | 6.5-8.5 亿(预计) | [49396] | ✅ 批量出货 |
| 壁仞科技 | 49.9 万 | 0.62 亿 | 3.37 亿 | ~11.51 亿 | [49412] | ⚠️ 早期商业化 |
| 芯瞳半导体 | 未公开 | 未公开 | 0.51 亿 | 0.27 亿(2025) | [49670] | ⚠️ 早期商业化 |
| 登临科技 | 未公开 | 未公开 | 未公开 | 未公开 | — | ⚠️ 早期商业化 |
| 瀚博半导体 | 未公开 | 未公开 | 未公开 | 未公开 | — | ⚠️ 早期商业化 |
| 芯动科技 | 未公开 | 未公开 | 未公开 | 未公开 | — | ⚠️ 早期商业化 |
| 砺算科技 | — | 0 | 0 | 0(2025 前 7 月) | [49550] | ❌ 尚未产生营收 |
| 象帝先 | 未公开 | 未公开 | 未公开 | 未公开 | — | ❌ 商业化停滞 |
说明:华为昇腾营收未在华为年报中单独列示,上述数据来自第三方机构估算和专家纪要。华为 2024 年报中鲲鹏+昇腾开发者累计 665 万、生态伙伴 8500+ 家 [49648]。阿里平头哥营收包含在阿里巴巴集团财报中,未单独披露。瀚博半导体、登临科技、芯动科技三家公司为非上市企业,营收数据未公开披露。
根据 IDC 2024 年中国加速计算芯片市场数据,各厂商出货量排名如下 [49592]:
| 排名 | 厂商 | 2024 年出货量(万片) | 市场份额 | 2025 年上半年出货量 | 备注 |
|---|---|---|---|---|---|
| 1 | NVIDIA | ~190 | ~70% | 约 130 万 | 基准对比 |
| 2 | 华为昇腾 | ~64 | ~23% | 约 40 万+ | 国产第一 |
| 3 | 百度昆仑芯 | ~6.9 | ~2.5% | 未公开 | 国产第二 |
| 4 | 天数智芯 | ~3.8 | ~1.4% | 1.57 万 | 国产第三 |
| 5 | 寒武纪 | ~2.6 | ~1.0% | 未公开 | 国产第四 |
| 6 | 沐曦 | ~2.4 | ~0.9% | 未公开 | 国产第五 |
| 7 | 燧原科技 | ~1.3 | ~0.5% | 未公开 | 国产第六 |
另外,阿里平头哥真武 PPU 截至 2026 年 5 月累计出货 56 万片 [49662],但 2024 年出货量未纳入 IDC 统计口径(可能因产品发布时间较晚或统计口径不同)。
2025 年格局发生显著变化:IDC 数据显示 2025 年上半年中国 AI 芯片出货量突破 190 万张,同比增 111% [49595]。全年来看,华为昇腾出货量约 81.2 万片,国产芯片整体份额升至约 41% [49601]。2025 全年昆仑芯和寒武纪出货量均达 11.6 万块,并列国产第三 [49597]。
客户结构是衡量商业化质量的关键指标——客户集中度越低、外部客户占比越高,说明产品越是被市场而非政策驱动认可。
| 厂商 | 前五大客户营收占比 | 第一大客户占比 | 主要客户类型 | 关键特征 |
|---|---|---|---|---|
| 华为昇腾 | 多元化 | 分散 | 运营商(15-17 万片)、互联网厂商、政府、智算中心 | 全行业覆盖,客户结构最健康 |
| 海光信息 | 未集中披露 | 分散 | 运营商、金融、互联网、教育 | CPU+DCU 双轮驱动,多行业渗透 |
| 百度昆仑芯 | 百度内部采购 ~60% | 百度 | 百度智能云、外部互联网厂商、运营商、手机厂商 | 2024 年外部客户占比约 40% |
| 阿里平头哥 | 阿里云内部 ~60% | 阿里云 | 阿里云、国家电网、中科院、小鹏汽车、新浪微博等 400+ 客户 | 2025 年外部客户快速增长 |
| 寒武纪 | 94.63% | 79.15%(9.30 亿) | 从政府转向互联网公司和运营商 | 单一客户依赖度极高 |
| 摩尔线程 | 98.29%(2025H1) | 客户 R 贡献 3.97 亿(2025H1) | 互联网企业、芯片设计企业、AI 企业、算力服务商 | 集群业务为主,客户高度集中 |
| 壁仞科技 | 90.3%(2024) | 未公开 | ICT、数据中心、AI 解决方案公司 | 9 家中国财富 500 强客户 |
| 沐曦 | 71.09%(2024) | 未公开 | 服务器厂商、集成商、智算中心建设方 | 2023 年曾达 91.58% |
| 燧原科技 | 96.89%(2025 前三季度) | 腾讯 83.79% | 腾讯(直接+AVAP 模式)、运营商、智算中心 | 腾讯既是第一大股东又是第一大客户 |
| 天数智芯 | 38.6%(2025H1) | 未公开 | 互联网、金融、医疗、教育、交通等 340+ 客户 | 客户集中度最低,市场化程度最高 |
| 景嘉微 | 集中度高(军工) | 航空工业少数客户 | 图形显控(军工)、信创桌面 | 芯片业务占比 ~29% |
| 登临科技 | 未公开 | 未公开 | 智慧城市、交通、金融、能源、电力 | 多行业落地 |
| 砺算科技 | N/A | N/A | 尚未产生营收 | 产品仍在送样测试阶段 |
关键洞察:
毛利率是衡量芯片产品竞争力的核心指标。高毛利率意味着产品具有技术溢价能力,低毛利率则可能反映”堆料卖铁”或依赖低价竞标。
| 厂商 | 2022 毛利率 | 2023 毛利率 | 2024 毛利率 | 2025 毛利率 | 评价 |
|---|---|---|---|---|---|
| NVIDIA(基准) | ~60% | ~70% | ~75% | ~75% | 黄金标杆 |
| 海光信息 | 52.42% | 59.67% | 63.72% | — | 国产最高,逼近 NVIDIA |
| 寒武纪 | 65.76% | 69.30% | 56.71% | 55.23% | 从高位下滑,产品结构变化 |
| 摩尔线程 | 27.84% | 72.32% | 69.17% | — | 波动大,2024 年改善明显 |
| 沐曦 | 64.27% | 53.48% | 56.51% | — | 中等水平 |
| 天数智芯 | 59.26% | 49.48% | 49.07% | 50.09%(2025H1) | 偏低,推理产品拉低 |
| 燧原科技 | 未公开 | 22.60% | 30.59% | 31.78% | 国产最低,集群收入占比高 |
| 壁仞科技 | 100% | 未公开 | 未公开 | 31.9%(2025H1) | 从 100% 断崖下跌 |
| 景嘉微 | 芯片业务 ~47% | 芯片业务 ~43% | 未公开 | 未公开 | 图形芯片毛利率偏低 |
毛利率数据来源:海光 [49327];寒武纪 [49448];摩尔线程 [49448];沐曦 [49448];天数智芯 [49452];燧原 [49448];壁仞 [49430]。
关键洞察:
| 厂商 | 2022 净利润 | 2023 净利润 | 2024 净利润 | 2025 净利润 | 累计亏损 | 盈利预期 |
|---|---|---|---|---|---|---|
| 海光信息 | +8.04 亿 | +12.63 亿 | +19.31 亿 | 预计 +36.6 亿 | — | 持续盈利 ✅ |
| 华为昇腾 | 未单独披露 | 未单独披露 | 未单独披露 | 未单独披露 | — | 不确定 |
| 百度昆仑芯 | 未公开 | 未公开 | 约 -2 亿 | 预计盈亏平衡 | ~数亿 | 2025 年盈亏平衡 |
| 寒武纪 | -12.57 亿 | -8.48 亿 | -4.43 亿 | 2025Q1 扭亏 | ~-50 亿 | 2025 年有望全年盈利 |
| 摩尔线程 | -18.94 亿 | -17.03 亿 | -16.18 亿 | 2025H1 -2.71 亿 | ~-55 亿 | 最早 2027 年盈利 |
| 沐曦 | -7.77 亿 | -8.71 亿 | -14.09 亿 | 2025Q1 -2.33 亿 | ~-33 亿 | 最早 2026 年 |
| 燧原科技 | -11.16 亿 | -16.65 亿 | -15.10 亿 | 2025 前三季 -8.88 亿 | ~-52 亿 | 未明确 |
| 天数智芯 | -5.65 亿 | 未公开 | 未公开 | 未公开 | ~-28 亿 | 未明确 |
| 壁仞科技 | -14.74 亿 | -17.44 亿 | -15.38 亿 | 2025H1 大幅亏损 | ~-63 亿 | 未明确 |
| 景嘉微 | +2.89 亿 | +0.60 亿 | -1.65 亿 | 2025Q1 -0.55 亿 | — | 2025 年预计续亏 |
| 芯瞳半导体 | 未公开 | 未公开 | -1.07 亿 | -0.49 亿 | >-1.5 亿 | 不确定 |
| 砺算科技 | 未公开 | -1.5 亿 | -2.1 亿 | -1.5 亿(前 7 月) | ~-5.1 亿 | 不确定 |
数据来源:海光 [49319];寒武纪 [49373];摩尔线程 [49363];沐曦 [49521];燧原 [49449];壁仞 [49418];天数智芯 [49454];景嘉微 [49396];芯瞳 [49670];砺算 [49550]。
唯一盈利的国产 GPU/AI 加速器上市公司是海光信息。华为昇腾业务可能也是盈利的(尽管未单独披露,但华为整体计算产业”抓住 AI 机会取得较大增长”[49644]),综合其出货量和 ASP 判断,昇腾大概率是国产 GPU 中盈利规模最大的业务线。
寒武纪 2024 年 Q4 实现上市以来首次单季度盈利 [49387],2025 年 Q1 继续盈利 [49372],2025 年上半年归母净利润达 10.38 亿元,首次实现半年度盈利 [49380],正在从”烧钱”模式进入”造血”阶段。
芯片公司的核心竞争力不仅体现在总营收,更体现在人均产出效率上。以下是基于公开数据的人均营收估算:
| 厂商 | 2024 年营收 | 员工规模(估) | 人均营收(估) | 研发费用率 |
|---|---|---|---|---|
| 海光信息 | 91.62 亿 | ~2,400 人 | ~380 万元 | 31.76% |
| 华为昇腾 | ~200 亿+(估) | 数千人 | 高 | 未单独披露 |
| 寒武纪 | 11.74 亿 | ~1,500 人 | ~78 万元 | 91.3% |
| 摩尔线程 | 4.38 亿 | ~1,200 人(估) | ~37 万元 | 极高 |
| 天数智芯 | 5.40 亿 | ~800 人(估) | ~68 万元 | 143.2% |
| 沐曦 | 7.43 亿 | ~1,000 人(估) | ~74 万元 | 极高 |
| 燧原科技 | 7.22 亿 | ~1,200 人(估) | ~60 万元 | 181.7% |
海光信息的人均营收遥遥领先,这与其”CPU+DCU”双产品线、多行业客户覆盖和成熟的销售体系密切相关。相比之下,初创 GPU 公司的人均营收普遍偏低,反映出商业化效率仍有较大提升空间。
寒武纪 2024 年研发投入占营收的 91.3% [49379]、天数智芯 2024 年研发费用占营收 143.2% [49464]、燧原科技 2022-2024 年三年研发费用合计 35.29 亿元,占同期营收比例超过 316% [49436]——这些数据鲜明地揭示了国产 GPU 行业的”烧钱”本质。
| 厂商 | 在手订单 | 合同负债/预收款 | 增长确定性 |
|---|---|---|---|
| 华为昇腾 | 供不应求,持续排队 | 极高 | ⭐⭐⭐⭐⭐ |
| 海光信息 | 2024 年末存货 54.25 亿(+405%),合同负债大幅增长 | 极高 | ⭐⭐⭐⭐⭐ |
| 摩尔线程 | 2025 年上半年在手订单 ~20 亿 | 高 | ⭐⭐⭐⭐ |
| 壁仞科技 | 24 份销售合同 + 5 份框架协议,总价值约 12.4 亿 | 中 | ⭐⭐⭐ |
| 沐曦 | 截至 2025 年 9 月,在手订单 14.3 亿 | 高 | ⭐⭐⭐⭐ |
| 燧原科技 | 燧原 S60 出货及订单超 10 万片 | 中 | ⭐⭐⭐ |
| 寒武纪 | 存货大幅增长(备货应对爆单) | 中高 | ⭐⭐⭐⭐ |
数据来源:海光 [49327];摩尔线程 [49355];壁仞 [49413];沐曦 [49520];燧原 [49763]。
海光信息 2024 年末存货账面价值高达 54.25 亿元,较三季度末增加 15.29 亿元,同比增幅超 400%,其中以原材料为主 [49327]。这一”激进备货”策略既反映了公司对 2025 年需求的高度信心,也暗含美国制裁进一步升级背景下的供应链焦虑——提前囤积关键原材料和晶圆产能。
根据营收规模、客户验证程度和产品成熟度,将国产厂商分为以下梯队:
| 梯队 | 厂商 | 特征 | 2024 年营收范围 |
|---|---|---|---|
| 第一梯队 | 华为昇腾、海光信息 | 大规模放量、多行业验证、正向盈利或接近盈利 | 90 亿 ~ 200 亿+ |
| 第二梯队 | 百度昆仑芯、阿里平头哥 | 背靠大厂生态、出货量领先、向外部市场拓展 | 20 亿 ~ 40 亿(估) |
| 第三梯队 | 寒武纪、沐曦、燧原科技、天数智芯、摩尔线程 | 批量出货、营收快速增长、尚未盈利 | 4 亿 ~ 12 亿 |
| 第四梯队 | 壁仞科技、景嘉微、登临科技、瀚博半导体 | 早期商业化、营收规模小、客户验证有限 | 1 亿 ~ 4 亿 |
| 第五梯队 | 芯动科技、芯瞳半导体 | 少量出货、营收不稳定 | <1 亿 |
| 第六梯队 | 砺算科技、象帝先 | 尚未产生营收或商业化停滞 | 0 |
1. 华为昇腾是唯一具有”量价齐升”能力的国产玩家。 2024 年出货约 64 万片,2025 年预计超 70 万片(含 910B + 910C),ASP 超过 10 万元/片 [49336],2024 年算力卡营收目标 200 亿元 [49337]。2025 年 Bernstein 估算其销售额达 102.68 亿美元,已与英伟达在中国市场持平 [49689]。
2. 海光信息是唯一实现规模化盈利的国产 GPU/AI 加速器上市公司。 2024 年营收 91.62 亿元、净利润 19.31 亿元、毛利率 63.72%,三项指标均为国产厂商之最。其 DCU 业务虽然营收占比尚未超过 CPU,但增速显著,深算三号有望成为 2025-2026 年的核心增长引擎。
3. 营收与市值严重倒挂是国产 GPU 的普遍现象。 寒武纪 2024 年营收 11.74 亿元,市值一度超 3000 亿元,市销率超过 250 倍;摩尔线程 2024 年营收 4.38 亿元,IPO 首日市值超 4000 亿元。这反映了资本市场对国产替代的”情感溢价”而非基本面支撑 [49360]。
4. 客户集中度是最大的商业化风险。 寒武纪第一客户占比 79.15%、燧原科技腾讯占比 83.79%、摩尔线程前五大客户占比 98.29%——这些数据意味着一旦单一客户减少采购,营收将出现断崖式下跌。相比之下,天数智芯前五大客户占比已降至 38.6%,商业化质量最高。
5. 非上市公司的营收数据普遍不透明。 瀚博半导体、登临科技、芯动科技等未上市企业未公开营收数据,只能通过融资新闻和零星报道侧面了解其商业化进展。阿里平头哥和百度昆仑芯的营收包含在集团财报中,未单独列示,需依赖第三方机构估算。
6. “零营收”公司依然存在。 砺算科技 2023-2025 年营收均为零,累计亏损超 5 亿元,但估值仍达 35 亿元 [49552]。象帝先 2024 年因对赌失败解散 400 人团队,后虽获得新一轮融资”起死回生”,但商业化前景仍高度不确定 [49492]。这提醒投资者:国产 GPU 赛道并非所有参与者都能走到终点。
对比融资轮次、估值、上市状态、资金储备
资本市场是国产GPU/AI加速器行业的“晴雨表”和“加速器”。2025年底至2026年上半年,国产GPU/AI芯片企业掀起了一波前所未有的上市潮——摩尔线程、沐曦相继登陆科创板,壁仞科技、天数智芯挂牌港交所,燧原科技科创板过会在即,昆仑芯、平头哥上市传闻四起。据统计,仅2025年全年,国内GPU相关赛道企业总募资规模已超300亿元 [50134]。这一轮资本盛宴既是国产替代逻辑的集中兑现,也折射出市场对AI算力稀缺资产的狂热定价。
架构师注:芯片是典型的“烧钱”行业——一次先进制程流片费用动辄数千万美元,而软件生态建设更是需要持续十年以上的投入。资本市场的窗口期不会永远敞开。当前这批企业的融资能力,在很大程度上决定了它们能否活到与NVIDIA正面竞争的那一天。因此,融资状态不仅是“钱的问题”,更是“生存权的问题”。
| 公司 | 融资轮次 | 累计融资额(估算) | 最新估值(Pre-IPO/最新轮) | 上市状态 | 上市交易所 | 上市/预计时间 | IPO募资额 | 当前市值(约) | 2025年营收(公开) | 盈利状态 |
|---|---|---|---|---|---|---|---|---|---|---|
| 华为昇腾 | 内部孵化 | 不适用(华为体系) | 不单独估值 | 未上市(华为旗下) | — | 暂无独立上市计划 | — | — | 华为2025总营收8809亿 | 华为整体盈利 |
| 海光信息 | 上市前多轮 | 未公开(IPO前) | 市值约6886亿 | 已上市 | 科创板(688041) | 2022.08 | ~108亿 | 约6886亿 [50112] | 143.76亿 | ✅ 盈利(净利25.42亿) |
| 寒武纪 | 上市前多轮+定增 | 上市前约50亿+ | 市值约7168亿 | 已上市 | 科创板(688256) | 2020.07 | ~25亿(首发) | 约7168亿 [50112] | 64.97亿 | ✅ 盈利(净利20.59亿) |
| 摩尔线程 | 7轮 | 超100亿 | 298亿(Pre-IPO) | 已上市 | 科创板(688795) | 2025.12 | 80亿(净额75.76亿) | 约3364亿 [50112] | 约7.85亿(前三季) | ❌ 亏损 |
| 沐曦 | 8轮 | 数十亿 | 210.71亿 | 已上市 | 科创板(688802) | 2025.12 | 41.97亿 | 约3033亿 [50112] | 快速增长 | ❌ 亏损(预计2026盈亏平衡) |
| 壁仞科技 | 10轮 | 超50亿(一说90+亿) | 209亿(2025.8) | 已上市 | 港交所(06082) | 2026.01 | 42.1-48.5亿港元 | 最高超1000亿港元 | 销售合同12.41亿(截至2025底) | ❌ 亏损 |
| 天数智芯 | 7轮(D+轮) | 超34.5亿(D+D+轮) | 120亿(D+轮投前) | 已上市 | 港交所(09903) | 2026.01 | 约35.09亿港元 | 约399亿港元 [49948] | 未公开 | ❌ 亏损(收窄中) |
| 燧原科技 | 11轮 | 近70亿 | 202-210亿(2024.12) | IPO过会 | 科创板(申报) | 2026.06过会 | 拟募60亿 | 机构预计1200-1800亿 | 2025前三季5.4亿 | ❌ 亏损(预计2026盈亏平衡) |
| 景嘉微 | 上市+定增 | 定增38.33亿(2024) | 市值约337亿 | 已上市 | 创业板(300474) | 2016.03 | 38.33亿(2024定增) | 约337亿 [50174] | 约7.2亿(2025) | ❌ 亏损(净亏1.65亿) |
| 百度昆仑芯 | D轮 | 未公开(含21亿元D轮) | 210亿(2025.07) | IPO推进中 | 港交所(递表) / 科创板(辅导) | 2026年(A+H可能) | 传言10-20亿美元 | 高盛估320-1300亿 | 约13亿(2025) | 未公开(推测亏损) |
| 阿里平头哥 | 阿里全资 | 内部孵化 | 摩根大通估250-620亿美元 | 传闻独立上市 | 未定 | 2026H2-2027初(预计) | 未定 | 未定 | 未公开 | 未公开 |
| 瀚博半导体 | 6轮 | 超25亿 | 100亿+(2024胡润) | IPO辅导中 | 科创板(辅导) | 2025.07启动辅导 | 未定 | 未定 | 未公开 | 未公开(推测亏损) |
| 登临科技 | 多轮(含战略) | 未公开 | 未公开 | 未启动IPO | — | 暂无明确计划 | — | — | 未公开 | 未公开 |
| 象帝先 | 5轮+新融资 | 约25亿+数亿 | 峰值150亿→80亿→回升 | 拟IPO | 未定 | 2026年计划股改 | — | — | 未公开 | ❌ 亏损(曾濒临解散) |
| 砺算科技 | 天使+Pre-A+增资 | 约6亿+ | 35亿(2025.08投前) | 未启动IPO | — | 暂无明确计划 | — | 东芯股份持股35.87% | 0(2024); 0(2025前7月) | ❌ 巨额亏损 |
| 芯动科技 | 未公开 | 未公开 | 未公开 | 未上市 | — | 暂无明确计划 | — | — | 未公开 | 未公开 |
| 芯瞳半导体 | A轮 | 超亿元(A轮)+5.5亿(大胜达) | 20亿(2026.03投前) | 未启动IPO | — | 暂无明确计划 | — | 大胜达持股22.98% | 5078.5万(2025) | ❌ 亏损(净资产为负) |
| 格兰菲 | 多轮 | 未公开(兆芯体系) | 未公开 | IPO辅导中 | 科创板(辅导) | 2025.02启动辅导 | — | — | 未公开(兆芯体内) | ❌ 亏损(年亏2-6亿) |
数据截止日期:2026年6月18日。市值数据为近似值,随市场波动。标注”未公开”的信息为公开资料中未找到可靠数据,需进一步核验。
| 公司 | 核心优势 | 风险提示 |
|---|---|---|
| 海光信息 | 唯一实现百亿营收+持续盈利的国产GPU/AI芯片公司。2025年营收143.76亿,净利25.42亿 [50101]。2026Q1营收40.34亿,同比+68.06% [49793]。在手订单充裕,新签订单59.60亿 [49788]。现金储备充足。 | 市值已近7000亿,PS约48倍,估值不便宜。与AMD x86授权协议的长远可持续性存疑。 |
| 寒武纪 | 2025年首次实现全年盈利,营收64.97亿,净利20.59亿 [49808]。市值约7168亿,PS约110倍——市场给予极高成长溢价。2026Q1营收28.85亿,环比+53% [49825]。 | 市值中隐含了极高的增长预期。2026年营收指引200亿 vs 市场300-500亿预期的落差曾引发股价波动 [49813]。客户集中度高仍是隐忧。 |
投资者视角:海光信息和寒武纪是A股国产AI芯片的”双龙头”,合计市值超1.4万亿。但两家公司的估值逻辑截然不同:海光是”价值+成长”(有真实利润支撑),寒武纪是”纯成长”(市场赌的是2027年以后的爆发)。在海光/寒武纪之间,海光更像”确定性的复利”,寒武纪更像”高赔率的期权”。
| 公司 | IPO募资 | 可支配资金 | 盈亏平衡预期 | 核心关注点 |
|---|---|---|---|---|
| 摩尔线程 | 80亿(净额75.76亿) | 充裕 | 预计2027年 | 募资额创2025年科创板纪录。上市首日涨468%,市值超3000亿 [49835]。但前三季度营收仅7.85亿,PS超300倍 [49829]。 |
| 沐曦 | 41.97亿 | 72.90亿(截至2025.03) | 预计2026年 | 可支配资金72.90亿,足以覆盖未来两年营运资金需求55.69亿 [50178]。上市首日涨569%,市值超2800亿 [49876]。 |
| 壁仞科技 | 42.1-48.5亿港元 | 现金类资产结余充裕 | 未明确 | 港股GPU第一股。首日涨75.82%,市值一度超1000亿港元 [50128]。募资85%用于研发 [49865]。 |
| 天数智芯 | 约35.09亿港元 | 充裕 | 未明确 | 港股上市。毛利率超50%,资产负债率降至39.8% [49951]。2025年推理收入增238.2%。 |
架构师注:这四家(被市场合称为”GPU四小龙”)合计融资约200亿元人民币,加上IPO募资,账面现金至少在300亿以上。从”烧钱”角度,这足够支撑3-5年的研发投入。但市场给予的估值(合计市值超7000亿)已经price in了相当乐观的预期——它们需要在未来2-3年内证明自己能实现数十亿级别的营收和正向经营现金流,否则估值回调将是大概率事件。
| 公司 | 当前状态 | 预计募资 | 最新估值 | 关键不确定性 |
|---|---|---|---|---|
| 燧原科技 | 科创板IPO 2026.06.15过会 [49899] | 拟募60亿 | 一级市场202-210亿 | 腾讯贡献超80%营收,客户集中度极高 [49893]。对赌协议风险 [49896]。 |
| 百度昆仑芯 | 港股递表+科创板辅导启动 [49933] | 传言10-20亿美元 | 210亿(2025.07) | 高盛估值区间极宽(320-1300亿) [49938],反映高度不确定性。依赖百度生态。 |
| 瀚博半导体 | 科创板辅导中(2025.07启动) | 未定 | 100亿+(2024胡润) | Pre-IPO轮已完成,但募投项目方案尚未最终确定 [50127]。 |
| 格兰菲 | 科创板辅导中(2025.02启动) | 未定 | 未公开 | 年亏损2-6亿,持续亏损 [50121]。兆芯生态依赖性。 |
| 公司 | 当前状态 | 传闻估值 | 分析 |
|---|---|---|---|
| 阿里平头哥 | 2026.01传出独立上市消息 | 摩根大通估250-620亿美元 [50071] | 阿里全资子公司,需要先完成内部重组和员工持股改造。摩根大通对其2026年内完成IPO持保留态度 [50068]。若上市,可能是国产芯片史上最大IPO。 |
| 象帝先 | 2026年计划完成股改,加速IPO | 峰值150亿→低谷80亿→回升 | 经历了2024年濒临解散的危机后,2025-2026年连续获得数亿元融资,资本认可度回升 [49974]。但估值修复之路仍漫长。 |
| 公司 | 状态 | 核心问题 |
|---|---|---|
| 登临科技 | 持续获得战略融资(高通创投等) | 估值未公开,IPO路径不明确。专注AI推理,市场规模天花板可能制约估值。 |
| 砺算科技 | 2024年营收0,2025年前7月营收0 | 零营收、净资产为负(-8633万),依靠东芯股份持续”输血”[50020]。投前估值35亿的定价逻辑存疑。 |
| 芯瞳半导体 | 2025年净资产-1966万,大胜达5.5亿入股 | 资不抵债,但投前估值20亿 [50093]。大胜达的跨界投资被市场质疑 [50082]。 |
| 芯动科技 | 未上市,以IP授权和芯片定制为主业 | 商业模式不同于纯GPU芯片公司,IPO动力和路径不明确。 |
2025年12月5日至2026年1月8日,短短35天内,摩尔线程(科创板)、沐曦(科创板)、壁仞科技(港交所)、天数智芯(港交所)四家国产GPU公司相继上市,累计市值一度超过6800亿元 [50189]。这不仅是国产GPU行业的”成人礼”,也标志着资本市场对国产算力赛道的定价进入了全新阶段。
国产GPU公司的估值体系极为特殊,与传统半导体估值逻辑存在显著偏离:
| 指标 | 摩尔线程 | 寒武纪 | 海光信息 | NVIDIA(参考) |
|---|---|---|---|---|
| 动态PS(市销率) | ~300倍 | ~110倍 | ~48倍 | ~25-30倍 |
| 盈利状态 | 亏损 | 刚盈利 | 稳定盈利 | 高盈利 |
| 估值逻辑 | 国产替代溢价+全功能GPU稀缺性 | AI训练芯片龙头溢价 | 业绩+成长双轮驱动 | 全球AI算力霸主 |
摩尔线程以300倍PS上市,意味着市场在为其”全功能GPU唯一性”支付极高的稀缺溢价 [49829]。但这种估值能否持续,取决于其未来2-3年的营收增速能否兑现预期。
百度昆仑芯和阿里平头哥的上市计划,揭示了一个深层趋势:互联网大厂的芯片业务正在从”成本中心”向”利润中心”转型。昆仑芯独立后估值从130亿升至210亿,平头哥若独立上市估值可能高达250-620亿美元 [50070]。这种”分拆红利”正在激励更多大厂将芯片业务推向资本市场。
但从另一个角度看,这也意味着大厂芯片业务将面临更严格的独立盈利能力考验——资本市场不会像母公司那样容忍长期亏损。
2024年,象帝先因B轮融资对赌协议未达成5亿元营收目标,遭股东起诉、资金账户被冻结,一度濒临解散 [49976]。砺算科技2024年营收为0,经历7-8个月经营极度困难时期,依靠东芯股份的2亿元”救命钱”才得以延续 [50006]。
这两个案例揭示了国产GPU赛道的残酷现实:芯片创业的容错率极低。一次流片失败、一轮融资延迟,都可能直接导致公司死亡。 当前的一级市场融资环境虽然较2024年有所回暖,但投资人对”只有PPT没有芯片”的项目容忍度已大幅降低。
华为昇腾作为国产AI芯片出货量第一的厂商(2025年占国产GPU出货量近半)[49772],从未独立融资,也不在上市讨论之列。其背后是华为集团2025年8809亿营收、1900亿研发投入的雄厚财力支撑 [49771]。这种”不差钱”的模式,让昇腾在研发投入上拥有远超其他国产厂商的优势——仅2026年字节跳动一家的昇腾芯片采购订单传闻就超过400亿元 [50201]。
架构师注:华为昇腾的”集团军模式”和创业公司的”特种兵模式”代表了两种完全不同的竞争路径。前者有无限弹药但受制于集团战略优先级,后者灵活但时刻面临资金链断裂的风险。在AI芯片这个”赢者通吃”的赛道,两种模式谁能笑到最后,将是未来3-5年最值得关注的变量之一。
| 维度 | 华为昇腾 | 海光信息 | 寒武纪 | 摩尔线程 | 沐曦 | 壁仞科技 | 天数智芯 | 燧原科技 | 景嘉微 | 其他非上市 |
|---|---|---|---|---|---|---|---|---|---|---|
| 资金储备评级 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ |
| 年研发投入(估算) | 数百亿(集团) | 30-40亿 | 20-30亿 | 10-15亿 | 8-12亿 | 10-15亿 | 5-8亿 | 5-8亿 | 3-5亿 | 1-5亿 |
| 可维持年限(不融资) | 无限期 | 10年+ | 5年+ | 5年+ | 4年+ | 3年+ | 3年+ | 2-3年 | 3年+ | 1-3年 |
| 融资能力 | 极强(集团) | 强(上市公司) | 强(上市公司) | 强(上市+高市值) | 强(上市+高市值) | 中强(港股上市) | 中(港股上市) | 中(IPO中) | 中(定增) | 弱-中 |
资金储备评级说明:基于现金储备、融资能力和研发烧钱速度综合评估。⭐⭐⭐⭐⭐表示即使3年不融资也能维持正常研发运营;⭐⭐表示严重依赖外部融资,资金链断裂风险较高。
关键结论:
华为昇腾和海光信息是唯二”不差钱”的玩家:前者背靠华为集团,后者已实现百亿营收和持续盈利。
“GPU四小龙”上市后现金充裕,但估值压力巨大:合计手持现金超300亿,但市值合计超7000亿——市场期望它们在未来3年内实现至少数十亿级别营收,否则估值将面临剧烈调整。
未上市企业面临”融资窗口关闭”风险:随着头部企业已上市,一级市场对GPU赛道的投资热情可能边际递减。瀚博、格兰菲等尚在IPO辅导中的企业需要尽快完成上市,而砺算、芯瞳等尚未盈利且营收极低的企业,融资难度将显著加大。
象帝先的”起死回生”是例外而非规律:大多数陷入困境的GPU创业公司不会像象帝先那样幸运地获得”白衣骑士”。
本节数据截止至2026年6月18日。市值数据为近似值,随二级市场波动。部分非上市公司的融资和估值数据来自公开报道,可能存在信息滞后或不完整,已标注”未公开”或”估算”。
预测哪些厂商有望在3-5年内实现技术闭环与规模化盈利
核心洞察:如果把国产GPU/AI加速器赛道比作一场马拉松,2025-2026年是一个关键分水岭——从”融资烧钱、证明概念”的上半场,正式进入”营收验证、盈利冲刺”的下半场。此前所有厂商都可以用”国产替代”和”技术突破”的叙事获得高估值,但往后3-5年,资本市场和产业客户将用 营收规模、毛利率、亏损收窄速度、客户集中度、产品迭代节奏 这五把尺子,冷酷地重新丈量每一家公司的真实价值。本节的判断标准是:谁能在3-5年内实现”芯片设计→量产→软件生态→客户验证→规模化营收→盈利”的完整闭环。
在进入具体厂商分析前,先建立一套可验证的判断体系。一家GPU/AI芯片公司能否进入第一梯队,取决于以下五个维度的交叉验证:
| 维度 | 核心指标 | 权重 | 衡量标准 |
|---|---|---|---|
| 技术产品力 | 芯片代际迭代速度、性能对标水平、制程先进性 | 25% | 能否保持每12-18个月一代的迭代节奏 |
| 软件生态力 | 框架覆盖度、算子库完整度、开发者数量、迁移工具成熟度 | 20% | 能否让客户”30天内完成模型迁移” |
| 商业化能力 | 营收规模、增速、毛利率、客户多元化、在手订单 | 25% | 年营收>20亿且非单一客户占比<50% |
| 财务健康度 | 亏损收窄趋势、现金储备、融资能力、研发投入效率 | 15% | 经营性现金流能否在2年内转正 |
| 供应链韧性 | 代工来源多样性、先进封装可获得性、良率爬坡速度 | 15% | 能否在实体清单下稳定获取7nm及以下产能 |
以下三家厂商在2025年已经实现了”规模化营收+盈利”或”准盈利”,是当前国产GPU/AI加速器赛道中 唯一跑通了商业闭环的企业:
| 厂商 | 2025年营收 | 2025年净利润 | 2026Q1营收 | 2026Q1净利润 | 核心判断 |
|---|---|---|---|---|---|
| 海光信息 | 143.77亿 | 25.45亿 | 40.34亿 | 6.87亿 | 已盈利、持续高增 |
| 寒武纪 | 64.97亿 | ~20亿 | 28.85亿 | 10.13亿 | 已盈利、弹性最大 |
| 华为昇腾 | 未单独披露(估算300-400亿生态产值) | N/A | 2026年预计120万张出货 | N/A | 生态规模已封王 |
海光信息:2025年以143.77亿元营收、25.45亿元净利润稳居国产算力芯片”盈利王”[61153]。2026年Q1营收同比增长68.06%至40.34亿元,净利6.87亿元,研发投入占营收30.03%[61320]。深算三号DCU已量产商用,深算四号研发顺利,“CPU+DCU”双轮驱动使其兼具x86生态兼容性和AI算力能力[61145]。核心壁垒:国内唯一同时拥有高端CPU和DCU两条量产产品线的公司,x86兼容性大幅降低客户迁移成本,在金融、能源、运营商等信创核心领域已实现规模出货[61162]。
寒武纪:从”亏损王”到”盈利黑马”的蜕变堪称2025年国产AI芯片行业最戏剧性的事件。2025年全年营收64.97亿元,同比增长453.21%,实现上市以来首次年度盈利[61086]。2026年Q1营收28.85亿元,同比增长159.56%,净利润10.13亿元,同比增长185.04%[61340]。思元590芯片在大模型训练场景的规模化落地是核心驱动力,据称已进入字节跳动、阿里、腾讯等互联网大厂[61090]。核心壁垒:自研指令集+自研架构,思元590性能对标A100约80%,在国产训练芯片中仅次于华为昇腾[61089]。
华为昇腾:虽未独立上市,但昇腾生态的规模效应已与其他国产厂商拉开数量级差距。2025年昇腾芯片出货约52万张,2026年预计翻近3倍至120万张[61064]。2026年初字节跳动400亿采购订单的传闻虽未获官方确认,但中国移动深圳光明项目1.55亿元中标、昇腾910C成为算力基础设施核心支撑等公开信息,已充分验证其商业化能力[61074]。2026年Q1发布的昇腾950PR处理器标志着下一代推理算力进入商用阶段[61069]。2025年报显示,昇腾已汇聚400万开发者、3000多家合作伙伴[61065]。核心壁垒:全栈自研(芯片→CANN→MindSpore→集群→超节点),Atlas 950超节点规模远超NVIDIA同级产品,是唯一在万卡集群层面与NVIDIA正面竞争的国产方案[61295]。
以下四家厂商虽尚未实现盈利,但 营收增速、产品迭代、客户拓展和亏损收窄趋势 均表现出明确的”向第一梯队跃迁”信号:
(1)阿里平头哥——“隐形冠军”浮出水面
| 指标 | 数据 | 来源 |
|---|---|---|
| 累计交付 | 56万片(截至2026年5月) | [61243] |
| 年化营收 | 超百亿规模 | [61246] |
| 外部客户 | 400+家,覆盖20+行业 | [61243] |
| 外部客户占比 | 60%以上 | [61249] |
| 代际规划 | 真武V900(2027Q3)、真武J900(2028Q3) | [61243] |
平头哥是2025-2026年国产AI芯片赛道最令人意外的”黑马”——它用”秘密研发→内部验证→批量出货→官宣亮相”的策略,在几乎无人知晓的情况下完成了56万片的惊人交付量[61245]。真武810E性能对标英伟达H20,已在阿里云实现万卡规模部署,并拿下小鹏汽车、比亚迪等外部大客户[61244]。上第一梯队的核心逻辑:依托阿里云每年3800亿的AI基建投入,平头哥天然拥有”自产自销”的规模化验证场景,同时已证明外部商业化能力。阿里CEO吴泳铭明确表示”平头哥芯片产能扩大后可能通过销售AI服务器方式与服务商共建数据中心”[61251],这意味着平头哥正在从”内部供应商”转型为”公开市场玩家”。
(2)摩尔线程——“全功能GPU”路线的商业化验证者
| 指标 | 2022年 | 2023年 | 2024年 | 2025年 | 2026Q1 |
|---|---|---|---|---|---|
| 营收 | 0.46亿 | 1.24亿 | 4.38亿 | 15.05亿 | 7.38亿 |
| 净利润 | -18.4亿 | -16.73亿 | -14.92亿 | -9.5~-10.6亿 | +0.29亿(扭亏) |
| 营收增速 | — | 169% | 253% | 243% | 155% |
2026年Q1是摩尔线程的”历史性时刻”——成立以来首次实现单季度归母净利润转正(2936万元),扣非亏损也大幅收窄60.1%[61378]。全年营收从2022年的0.46亿飙升至2025年的15.05亿,三年增长超32倍[61394]。公司预计2027年实现合并报表全面盈利[61130]。上第一梯队的核心逻辑:摩尔线程是国内唯一真正走”全功能GPU”路线(AI+图形+渲染+视频编解码)且已实现规模量产的厂商,其MUSA架构和CUDA兼容策略(MUSA-Migration-Toolkit)使其在生态迁移上具有独特优势,夸娥(KUAE)万卡集群已获中国移动超20亿元合同[61134]。截至2025年底已获授权专利514项,研发投入13.05亿元,占营收86.68%[61117]。
(3)沐曦股份——“训推一体”的量产急先锋
| 指标 | 2022年 | 2023年 | 2024年 | 2025年 | 2026Q1 |
|---|---|---|---|---|---|
| 营收 | 42.64万 | 0.53亿 | 7.43亿 | 15~19.8亿 | 5.62亿 |
| 净利润 | -7.77亿 | -8.71亿 | -14.09亿 | 亏损收窄 | -0.99亿 |
沐曦在2024-2025年上演了营收增速奇迹——从年营收几十万元到2025年预计15-19.8亿元,三年复合增长率高达4074%[61366]。主力产品曦云C500在2024年量产,迅速成为营收核心(占比超90%),2025年出货量大幅增长[61196]。2026年Q1营收5.62亿元,同比增长75.37%,净亏损大幅收窄至0.99亿元[61368]。公司预计最早2026年实现盈亏平衡[61185]。上第一梯队的核心逻辑:C500已证明量产和客户接受度,下一代C600将升级HBM3e并支持FP8训练,技术路线图清晰。在手订单超14亿元,为2026年营收提供高能见度[61184]。高盛预测2026年净利润3.2亿,中信证券预测1.2亿[61363]。
(4)百度昆仑芯——“互联网派”芯片的规模效应
| 指标 | 数据 | 来源 |
|---|---|---|
| 2024年营收 | ~20亿元 | [61309] |
| 2025年营收(预测) | ~35亿元 | [61300] |
| 2026年营收(高盛预测) | 65亿元 | [61300] |
| 2026年营收(摩根大通预测) | 83亿元 | [61301] |
| 2025年出货量 | 约13万片 | [61302] |
| 市场份额 | 中国GPU市场第三(仅次于英伟达和华为) | [61313] |
昆仑芯的独特之处在于其”百度系”出身——它不需要像其他厂商那样从零开始找客户,百度自身就是最大的”内部客户”。2025年外部收入占比已超50%,意味着它正在从百度的”专属供应商”蜕变为独立的市场参与者[61312]。昆仑芯3代(M100)计划2026年上市,M300计划2027年[61307]。上第一梯队的核心逻辑:百度AI云基础设施的持续扩张为昆仑芯提供确定性需求底盘,同时外部客户拓展加速。投行预测的2026年65-83亿营收如果兑现,将使其营收规模仅次于海光信息,进入国产AI芯片前三。但 核心风险 在于:百度生态依赖度仍然较高,且昆仑芯的AI专用架构(非GPU路线)在灵活性上不如全功能GPU方案。
| 厂商 | 2025年营收 | 状态 | 核心短板 | 3年内进入第一梯队概率 |
|---|---|---|---|---|
| 壁仞科技 | 10.35亿 | 港股上市,经调整净亏8.74亿 | 亏损严重、制程受限、客户集中 | 中等(30-40%) |
| 燧原科技 | 9.90亿 | 科创板IPO过会,净亏11.64亿 | 84%营收依赖腾讯 | 中等偏低(20-30%) |
| 天数智芯 | 10.34亿 | 港股上市,经调整净亏4.37亿 | 市场份额仅0.3%、体量偏小 | 中等(25-35%) |
| 景嘉微 | 6.5-8.5亿 | A股上市,净亏1.65亿 | 图形GPU为主、AI算力起步 | 低(10-15%) |
壁仞科技:BR100系列纸面算力惊人(INT8算力2048 TOPS),但受TSMC 7nm断供影响,后续量产和迭代面临不确定性[61240]。2025年营收10.35亿元,同比增长207%,但经调整净亏损8.74亿元,且BR20X预计2026年Q3才有测试信息、Q4至2027年大规模出货[61459]。如果BR20X能顺利量产且性能对标H200,壁仞有望在2027-2028年跃入第一梯队。但时间窗口紧张——届时摩尔线程和沐曦可能已经盈利。
燧原科技:2025年营收9.9亿元,同比增长37%,但84%收入来自腾讯一家[61419]。这种”单一客户深度绑定”模式既是优势(需求确定性高),也是致命风险(议价能力弱、天花板明显)。2026年Q1营收2.87亿元,同比增长1474.85%,上半年预计10.6-11.5亿元[61418]。能否进入第一梯队几乎完全取决于:能否在2026-2027年将腾讯以外的客户收入占比提升至50%以上。
天数智芯:国内首家实现7nm GPGPU量产的企业,累计交付5.2万片[61207]。2025年营收10.34亿元,同比增长91.6%,推理业务收入同比增长238.2%[61400]。但市场份额仅0.3%[61204],在规模上难以与头部厂商抗衡。核心机会在于:AI推理市场的爆发式增长可能让”推理专用”定位成为差异化优势。
景嘉微:作为国内稀缺的图形GPU上市公司,其核心竞争力在于军工航天(星载GPU约70%份额)和信创桌面显卡市场[61278]。2025年营收6.5-8.5亿元,但净亏损1.65亿元,高研发投入侵蚀利润[61273]。图形GPU是国产替代的”最后一块拼图”,但市场规模远小于AI加速器,进入第一梯队的概率较低。
基于以上分析,对2027-2028年国产GPU/AI加速器第一梯队格局做出如下推演:
| 层级 | 厂商 | 预计2028年营收估算 | 核心逻辑 |
|---|---|---|---|
| 绝对龙头 | 华为昇腾 | 500-800亿(生态产值) | 全栈自研+万卡集群+政策首选 |
| 第一梯队 | 海光信息 | 300-500亿 | CPU+DCU双轮驱动+x86生态 |
| 第一梯队 | 阿里平头哥 | 200-400亿 | 阿里云底座+外部客户加速 |
| 第一梯队 | 寒武纪 | 150-300亿 | 思元系列持续迭代+互联网大厂 |
| 第一梯队 | 百度昆仑芯 | 100-200亿 | 百度生态+外部渗透 |
| 准第一梯队 | 摩尔线程 | 80-150亿 | 全功能GPU+MUSA生态 |
| 准第一梯队 | 沐曦股份 | 80-120亿 | 训推一体+快速迭代 |
判断一:华为昇腾将继续保持”断层式领先”。华为拥有其他厂商无法复制的三个优势:①全栈自研(芯片→互联→框架→集群→超节点);②SMIC N+2/N+3产能的优先保障;③信创+政务+运营商市场的”天然主场”。昇腾的挑战不在于”能不能进第一梯队”,而在于910C良率爬坡速度和软件生态(CANN vs CUDA)的完善程度。
判断二:海光信息是”最稳健”的第一梯队选手。其”CPU+DCU”双产品线、x86兼容性、持续盈利能力和稳健的研发投入节奏(2025年研发投入45.69亿元,占营收31.78%[61154]),使其在国产算力芯片中具有最强的抗风险能力。深算四号的商业化进度将是关键变量。
判断三:阿里平头哥和百度昆仑芯是”最大变量”。这两家互联网派芯片公司如果能在2027-2028年实现”外部客户>内部客户”的转型,其营收规模可能超越所有独立GPU创业公司。反之,如果始终无法摆脱”母公司专属供应商”的标签,估值天花板将受到显著压制。
判断四:摩尔线程和沐曦的”生死线”在2027年。摩尔线程预计2027年实现全面盈利[61130],沐曦预计2026年盈亏平衡[61185]。如果这两家能在2027年同时实现 盈利+万卡集群稳定运行+大客户多元化,将正式晋级第一梯队。如果盈利持续推迟,资本市场可能失去耐心。
判断五:壁仞科技是”高风险高回报”的赌注。如果BR20X(对标H200)在2027年实现大规模出货且性能达标,壁仞可能实现”弯道超车”。但如果BR20X量产延期或性能不达标,壁仞将面临严重的代际断层风险。
架构师观点:很多投资者和产业观察者过度关注”芯片流片成功”这个里程碑,但实际上,从”流片成功”到”技术闭环”之间还有三个巨大的鸿沟:①量产良率爬坡(从实验室die到百万片级一致性);②软件栈成熟(从”能跑ResNet”到”任何模型拿来即用”);③集群稳定性(从单卡8卡到万卡级30天无故障)。目前只有华为昇腾和海光DCU真正跨越了这三个鸿沟。寒武纪正在跨越中,摩尔线程和沐曦刚刚迈过第一个。
具体而言,“技术闭环”意味着:
| 风险事件 | 影响范围 | 概率评估 |
|---|---|---|
| 美国进一步收紧对SMIC的制裁(限制N+2/N+3产能) | 华为昇腾、寒武纪(依赖SMIC) | 中等(30-40%) |
| H20等阉割版芯片重新放量供应中国 | 所有国产AI芯片厂商 | 中低(20-30%) |
| 国产GPU厂商间爆发价格战 | 摩尔线程、沐曦、壁仞、天数智芯等 | 中等(30-40%) |
| 某头部厂商出现重大技术事故(如大规模集群崩溃) | 该厂商本身 | 中低(15-25%) |
| AI大模型泡沫破裂导致算力需求骤降 | 所有厂商 | 低(10-20%) |
| 长江存储/NMC等国产HBM突破 | 国产供应链整体利好 | 中等(30-40%,2027年前) |
特别警示:如果美国在2026-2027年进一步收紧对SMIC先进制程的出口管制,将重创依赖SMIC N+2/N+3产能的国产AI芯片厂商。华为昇腾和寒武纪首当其冲。届时,海光信息(部分产品可转向成熟制程+CPU路线)和阿里平头哥(可能通过其他渠道获取产能)的相对优势将凸显。
| 维度 | 华为昇腾 | 海光信息 | 阿里平头哥 | 寒武纪 | 百度昆仑芯 | 摩尔线程 | 沐曦股份 |
|---|---|---|---|---|---|---|---|
| 芯片架构能力 | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★☆☆ | ★★★★☆ | ★★★★☆ |
| 软件栈成熟度 | ★★★★☆ | ★★★★☆ | ★★★☆☆ | ★★★☆☆ | ★★★☆☆ | ★★★☆☆ | ★★★☆☆ |
| AI训练能力 | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★☆☆ | ★★★★☆ | ★★★★☆ |
| AI推理能力 | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★★☆ |
| 集群能力 | ★★★★★ | ★★★☆☆ | ★★★★☆ | ★★★☆☆ | ★★★☆☆ | ★★★★☆ | ★★★☆☆ |
| 商业化能力 | ★★★★★ | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★★☆ | ★★★☆☆ | ★★★☆☆ |
| 财务健康度 | ★★★★☆ | ★★★★★ | ★★★★☆ | ★★★★☆ | ★★★☆☆ | ★★★☆☆ | ★★★☆☆ |
| 供应链安全性 | ★★★☆☆ | ★★★★☆ | ★★★★☆ | ★★★☆☆ | ★★★★☆ | ★★★☆☆ | ★★★☆☆ |
| 未来3年成长性 | ★★★★★ | ★★★★☆ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★★ | ★★★★☆ |
| 综合判定 | 已确认第一梯队 | 已确认第一梯队 | 准第一梯队→极大概率 | 已确认第一梯队 | 准第一梯队→高概率 | 准第一梯队→中高概率 | 准第一梯队→中高概率 |
最终结论:如果要求用一句话预判2028年的国产GPU/AI加速器第一梯队格局——“华为昇腾是天花板,海光信息是最稳的基本盘,寒武纪是弹性最大的变量,阿里平头哥和百度昆仑芯是互联网派的双雄,摩尔线程和沐曦是全功能路线的最后希望,壁仞科技是高风险高回报的赌注。” 需要在2027年重点跟踪的关键节点包括:摩尔线程是否实现全面盈利、寒武纪思元690是否量产、沐曦C600是否大规模出货、壁仞BR20X是否按时交付、阿里平头哥真武V900是否发布。这些节点将最终决定第一梯队的座次。
识别技术路线脆弱、资金链紧张、市场定位模糊的企业
当一批国产 GPU 厂商借上市潮站上舞台中央时,另一批企业正在后台的阴影里与“资金断裂—团队流失—客户退却”的恶性循环缠斗。2024‑2026 年间,象帝先的“解散→复活”、砺算科技的“零营收、高估值、反复欠薪”、芯瞳半导体的“负资产卖身”等事件,已经撕开了这条赛道华丽叙事下的伤口。本节从 技术路线脆弱性、资金链安全性、市场定位清晰度 三个维度,识别那些最可能在 3‑5 年内被边缘化、并购或退场的厂商,并提炼出可复用的预警信号体系。
以下企业并非“可能出问题”,而是 已经出过问题,正在抢救中。它们的公开信息中暴露出明确的生存危机信号。
象帝先是本轮国产 GPU 浪潮中最具警示意义的案例。2024 年 8 月 30 日,这家估值曾达 150 亿元的“中国版英伟达”召开全员会议,宣布因 B 轮 5 亿元对赌协议未达成,公司账户被股东起诉冻结,400 余名员工被全员解约,欠薪记在账上[61477]。创始人唐志敏一度成为被执行人,被出具限制消费令[61490]。
这场危机的根源是典型的“对赌杠杆 + 烧钱速度失控”:
2026 年 4 月,象帝先宣布冲刺 IPO[61495]。但一家经历过“全员解散→账户冻结→创始人成老赖”的企业,其 客户信任重建、供应链关系修复、团队稳定性恢复 的难度远超表面上的“融资续命”。象帝先的未来取决于新一轮融资能否支撑到产品真正量产,以及客户是否愿意将业务部署在一家“死过一次”的芯片公司上。
架构师注:芯片行业不是互联网——客户选择 GPU 供应商相当于“押注 5 年技术路线”,象帝先的“复活”更像是 VC 的止损操作,而非市场信任的回归。
砺算科技是另一个“在悬崖边跳舞”的典型案例。核心数据足以说明问题:
| 指标 | 数据 | 来源 |
|---|---|---|
| 2023‑2025年7月累计营收 | 0 元 | [61520] |
| 同期累计亏损 | ~5.1 亿元 | [61520] |
| 2025年全年营收 | 2.48 万元 | [61529] |
| 2025年全年亏损 | 4.45 亿元 | [61529] |
| 投前估值(2025年8月) | 35 亿元 | [61526] |
| 2025年Q4订单 | 超20万片(7G100系列) | [61522] |
砺算的困境具有鲜明的“鸡生蛋、蛋生鸡”特征:没有流片就没有营收 → 没有营收就融不到资 → 融不到资就无法流片。2024 年 5 月,东芯股份以 2 亿元增资取得约 37.88% 股权,成为并列第一大股东[61644]。但这笔“救命钱”仅支撑到 2025 年 3 月,随后欠薪问题重现[61636]。东芯股份自身也陷入连年亏损(2023‑2025 年累计亏损超 5 亿元),无力继续输血[61530]。
砺算的 7G100 系列 GPU 于 2025 年 9 月启动量产,采用台积电 6nm 工艺,2025 年 Q4 获得超 20 万片订单[61689]。这是其“绝地反击”的关键一步。但 35 亿元估值 vs 2.48 万元年营收的悬殊对比,意味着 资本市场已将“成为国产 GPU 前三”的预期全部计入估值[61526]。如果 2026 年产品交付不及预期或客户退货,估值将面临断崖式回调。此外,公司已放弃消费级市场全覆盖,转而聚焦“图形渲染+AI 加速”双核心能力,这虽能集中资源,却也缩小了市场想象空间[61507]。
核心风险:砺算科技的生死取决于 7G100 系列能否在 2026 年实现规模出货并获得客户正向反馈。这不是“能否成功”的问题,而是“能否活下来”的问题。
芯瞳半导体的处境更为微妙。2026 年 3 月,纸包装公司大胜达宣布以 5.5 亿元取得芯瞳 22.9831% 股权[61560]。敲黑板的是:芯瞳 2025 年末净资产为 -1966.97 万元,自身根本无力承担先进制程的流片费用——“大胜达这笔钱,某种程度上就是救命钱”[61566]。
芯瞳半导体的财务数据:
| 指标 | 2024年 | 2025年 |
|---|---|---|
| 营收 | 2745.75 万元 | 5078.5 万元 |
| 净利润 | -1.07 亿元 | -4899.62 万元 |
大胜达的交易结构中包含一个关键条款:二期 2.5 亿元增资的唯一条件是“第三代 GPU 流片成功 + 达到约定性能”,流片失败则二期自动取消[61562]。这实质上将芯瞳的生死绑定在一次流片上。芯瞳在整体 GPU 市场占有率极低(<1%),被行业评为 T2(第二梯队),主要靠信创图形/嵌入式 GPU 细分市场维持[61570]。
架构师注:一家纸包装公司跨界收购 GPU 企业,这件事本身就说明标的已经“无人接盘”到需要跨界资本来兜底。芯瞳的“壳价值”可能大于其技术价值。
以下企业已经上市或即将上市,营收规模也达到数亿元至数十亿元,但结构性风险不容忽视。
燧原科技是商业化数据最“好看”的国产 GPU 厂商之一——2023‑2025 年营收从 3.01 亿元增长至 9.90 亿元,复合增长率 81.32%[61713]。但拆开收入结构,问题一目了然:
| 风险指标 | 数据 | 行业健康基准 |
|---|---|---|
| 腾讯占营收比(2025年) | 83.79% | <30% |
| 应收账款逾期比例 | 82.96% | <10% |
| 坏账准备计提比例 | 24.76% | 5‑10% |
| 累计未弥补亏损 | 44.41 亿元 | — |
| 经营活动现金流(2023‑2025) | 连续三年为负(-12亿/-18亿/-9.7亿) | — |
这些数据均来自燧原科技招股书[61698]。高应收账款逾期率表明,燧原的营收增长部分来自“放宽信用政策换订单”——智算中心项目客户回款周期长,部分款项可能最终无法收回。腾讯既是第一大股东又是第一大客户(10 轮融资中腾讯参与 6 次),这种“股东即客户”的模式在商业化初期可以理解,但 84% 的依赖度意味着 燧原尚未证明自己能在腾讯生态之外独立生存[61714]。2026 年 Q1 公司营收 2.87 亿元,但亏损仍达 4.44 亿元,预计上半年亏损可能进一步扩大至 5.77‑6.08 亿元[61705]。
寒武纪 2025 年实现上市以来首次全年盈利(营收 64.97 亿元,净利润 20.59 亿元),堪称华丽转身[61735]。但两个隐患值得警惕:
架构师注:寒武纪的盈利质量需要打一个问号——49 亿存货中,如果制程迭代或需求转向,跌价准备可能瞬间吞噬利润。这不是“会不会”的问题,而是“什么时候”的问题。
景嘉微顶着“国产 GPU 第一股”的光环,但 2025 年营收结构暴露了真相:图形显控业务(军工)贡献 4.51 亿元(占比 62.6%),芯片(GPU)业务营收仅 1.35 亿元,且同比下滑[61618]。2025 年全年营收 7.20 亿元,净利润亏损 1.65 亿元,研发费用 4.28 亿元(占营收 60%)[61619]。
景嘉微的核心矛盾在于:军工业务的壁垒(市占率超 90%)无法自然延伸到民用市场。JM9 系列 GPU 性能接近 AMD Radeon Pro,但主要应用于信创 PC 场景,与 AI 大模型、智算中心等主流需求存在巨大鸿沟。公司正在推进“GPU + 边端侧 AI SoC”双轮驱动,但边端 AI 芯片 CH37 系列 2025 年刚量产,营收贡献尚微不足道[61623]。未来 6‑12 个月的转型成败取决于 JM11 量产放量和 CH37 的客户验证,失败则可能滑向“军工业务维持、GPU 芯片边缘化”的路径[61632]。
摩尔线程 2025 年营收 15.06 亿元,同比增长 243.37%,但归母净利润仍亏损 10.01 亿元[61650]。2026 年 Q1,公司账面虽实现盈利,但扣除政府补助等非经常性损益后,扣非净利润仍亏损 5428 万元[61740]。更值得警惕的是,前五大客户贡献了 91% 的销售额,客户集中度极高。3 月签订的 6.6 亿元夸娥智算集群大单接近当季营收的九成,说明其大规模智算集群交付能力虽获验证,但营收结构同样脆弱。一旦大客户采购节奏放缓,业绩将剧烈波动。
天数智芯 2025 年营收 10.34 亿元,同比大增 91.6%,但净亏损也扩大至 10.04 亿元,毛利率从 2022 年的 59.4% 降至 2025 年上半年的 50.1%[61597]。低毛利的 AI 算力解决方案业务占比提升,以及新品迭代、定价策略调整,正在侵蚀盈利基础。公司累计出货 5.2 万片,服务 290 余家客户,但单客户规模仍偏小(平均约 180 片),商业化深度不足[61614]。在摩尔线程、沐曦等竞争对手亏损收窄的背景下,天数智芯若不能在 2026 年推出显著改善毛利率的新一代产品,其在资本市场的估值将面临考验。
登临科技是国产 GPU 中信息最不透明的企业之一。公开可查的最新融资为 2025 年 1 月由高通创投与光远资本参与的战略融资[61539],以及更早的中网投独家投资[61537]。其 Goldwasser™(高凛™)系列产品声称覆盖数据中心和边缘计算,但 缺乏公开的营收数据、客户案例和出货量信息。在“GPU 四小龙”集体冲刺 IPO 的背景下,登临的沉默显得格外突出。不排除其在特定细分市场(如边缘推理)有差异化优势,但公开资料不足以支撑任何确定判断。
瀚博半导体 2025 年 7 月启动 IPO 辅导,估值 105 亿元,融资总额超 25 亿元[61581]。其产品矩阵从智算中心覆盖到边缘设备,包括 AI 大模型一体机、边缘 GPU 等。但“大而全”的产品线需要“大而全”的研发投入支撑——在摩尔线程、沐曦、壁仞等已上市或即将上市的竞争对手面前,瀚博的 IPO 窗口期正在收窄。如果 2026 年未能成功上市,后续融资压力将急剧增大。
昆仑芯 2025 年预计营收 35 亿元,实现盈亏平衡,外部客户贡献占比首超 50%,看似已摆脱“百度专属供应商”标签[61759]。但高盛报告指出,“截至 2025 年末,昆仑芯外部销售额占比仍较低”[61754]。摩根大通预测其 2026 年营收将飙升至 83 亿元,这一预期高度依赖 AI 算力需求的持续爆发[61764]。若大模型商业化不及预期,或百度自身 AI 战略调整,昆仑芯的独立成长性将面临挑战。
根据对上述案例的归纳,国产 GPU 企业边缘化/退场存在一条可识别的“信号链”:
| 阶段 | 信号 | 已触发企业 |
|---|---|---|
| 第一阶段:资金预警 | 融资轮次间隔超过 18 个月;估值持平或下调;出现欠薪/降薪传闻 | 象帝先(2024年初)、砺算科技(2023‑2024) |
| 第二阶段:团队松动 | 核心技术人员离职;裁员 20% 以上;创始人股权被冻结 | 象帝先(2024年8月)、砺算科技(2024年) |
| 第三阶段:供应链断裂 | 流片延期 6 个月以上;无法支付晶圆代工预付款;被供应商起诉 | 象帝先(2024年Q3) |
| 第四阶段:客户流失 | 前三大客户终止合作;已签署框架协议无法转化为正式订单 | 尚未大面积出现(行业仍处早期) |
| 第五阶段:退出/并购 | 被收购;IPO 失败后清算;转为“壳公司” | 芯瞳半导体(被大胜达收购中) |
架构师注:目前国产 GPU 行业的大多数企业尚处于第一至第二阶段,真正进入第四、第五阶段的企业极少。但这并非因为行业健康,而是因为 2025‑2026 年的上市潮为企业提供了“续命”的资金窗口。真正的淘汰赛将在 2027‑2028 年到来——届时,上市企业的“烧钱”耐心耗尽,未上市企业的融资渠道枯竭,市场将出现第一波大规模出清。
综合技术路线脆弱性、资金链安全性、市场定位清晰度三个维度,给出以下边缘化/退场风险排序:
| 风险等级 | 企业 | 核心风险因素 | 3年内生存概率(主观评估) |
|---|---|---|---|
| 🔴 极高 | 砺算科技 | 零营收历史、估值虚高、核心股东自身亏损、反复欠薪 | 40‑50% |
| 🔴 极高 | 芯瞳半导体 | 负资产、跨界收购方资金有限、流片失败即断供 | 35‑45% |
| 🟠 高 | 象帝先 | 历史信用破产、团队重建不确定、客户信任修复难 | 50‑60% |
| 🟡 中高 | 登临科技 | 信息不透明、缺乏上市计划、商业化数据缺失 | 55‑70%(数据不足,置信度低) |
| 🟡 中 | 景嘉微 | GPU 芯片业务边缘化、军工业务与 AI 赛道脱节 | 70‑80%(军工业务提供安全垫) |
| 🟡 中 | 天数智芯 | 毛利率下行、亏损扩大、单客户规模小 | 70‑80%(商业化基础扎实,但盈利压力大) |
| 🟢 中低 | 燧原科技 | 客户高度集中、应收账款质量差、但腾讯生态支撑 | 75‑85% |
| 🟢 中低 | 摩尔线程 | 扣非仍亏损、客户集中度高、但上市平台融资能力强 | 80‑90% |
| 🟢 低 | 寒武纪 | 已盈利、上市平台融资能力强、但客户集中度和存货风险需持续关注 | 85‑95% |
重要声明:以上生存概率为主观评估,不构成投资建议。数据来源为各公司招股书、年报及公开报道,评估框架基于“技术路线×资金链×客户结构”的三维模型。
从全球半导体产业史来看,中国 GPU 企业未来可能通过以下三种路径走向边缘化或退场:
路径一:“PPT 芯片”→ 资金耗尽 → 解散(如早期的象帝先)
特征是:团队背景豪华、融资额巨大、但产品始终停留在“流片成功”阶段,无法转化为商业订单。资金耗尽后没有下一个“安孚科技”接盘。
路径二:“大客户捆绑”→ 客户自研替代 → 营收断崖(潜在风险:寒武纪、燧原)
特征是:营收高度依赖 1‑2 个大客户,而大客户本身在推进自研芯片。一旦大客户芯片量产,外部采购将急剧萎缩。寒武纪的最大客户字节跳动已自研 SeedChip,燧原的腾讯虽未明确自研,但过度依赖单一客户始终是定时炸弹。
路径三:“上市即巅峰”→ 股价破发 → 融资能力丧失 → 慢性死亡
特征是:借助市场情绪高估值上市,但后续季报持续不及预期,股价跌破发行价,失去再融资能力,最终沦为“壳公司”或被低价并购。摩尔线程、沐曦股价已出现大幅波动,投资者需警惕这一路径的兑现[61695]。
架构师注:路径三最值得警惕。2025‑2026 年上市的国产 GPU 企业,市值普遍在数百亿至数千亿元,但营收仅 10 亿元级别。这不是“价值发现”,而是“流动性溢价”。一旦市场情绪逆转,这些企业的股价可能面临比基本面更剧烈的调整,而股价下跌又会反过来削弱其融资能力和人才吸引力,形成负反馈循环。
国产 GPU 行业的淘汰赛并非均匀分布,而是有三个关键时间窗口:
| 时间窗口 | 触发事件 | 受影响企业 |
|---|---|---|
| 2026 年 H2 | 科创板/港股 IPO 窗口关闭,未上市企业融资难度骤增 | 瀚博半导体、登临科技、未上市中小厂商 |
| 2027 年 H1 | 头部企业(摩尔线程、沐曦)承诺的“盈亏平衡”时间点到期,市场验证商业模式 | 所有已上市企业 |
| 2028 年 H2 | 美国可能放宽 H200/B200 出口管制,国产 GPU 面临“回头潮”考验 | 所有以“制裁红利”为核心逻辑的企业 |
这三个窗口中,2028 年的“回头潮”窗口最具杀伤力。如果届时英伟达更高性能芯片恢复供应,而国产 GPU 在软件生态、集群稳定性、TCO 方面仍无实质突破,中国互联网大厂的“主动选择”将给出最终答案。届时,今天我们讨论的“边缘化”可能变成“集体退场”。
分析产业内横向并购、纵向整合与大厂收编的可能性
如果把国产GPU/AI芯片行业比作一场“饥饿游戏”,那么2024-2026年已经进入了“贡品互相残杀”的阶段。本章从 横向并购、纵向整合、大厂收编、跨界救援、资本退出 五个维度,系统推演这场产业大洗牌的底层逻辑。
2025年,国产GPU厂商的集体IPO并非终点,而是 淘汰赛的起跑枪。截至2026年6月,已有摩尔线程(科创板,市值3100亿元)、沐曦股份(科创板,市值2500亿元)、壁仞科技(港股)、天数智芯(港股,市值约400亿港元)等先后登陆资本市场 [1]。与此同时,燧原科技科创板IPO已获受理、昆仑芯已秘密递表港交所、平头哥传出独立上市计划 [3]。
上市潮的背后,是 残酷的财务现实:
| 公司 | 2022-2024累计亏损 | 2024年营收 | 最新融资/募资 | 现金储备(最近报告期) |
|---|---|---|---|---|
| 摩尔线程 | 超50亿元 | 4.38亿元 | IPO募资80亿元 | 公开数据有限 |
| 沐曦股份 | 超30亿元 | 7.43亿元 | 10轮融资+IPO | 可支配72.90亿元(2025Q1末) |
| 壁仞科技 | 超47亿元(三年半63亿) | 3.37亿元 | IPO募资42-48亿港元 | 公开数据有限 |
| 天数智芯 | 超22亿元 | 5.39亿元 | D+轮20.5亿+IPO募资37亿港元 | 公开数据有限 |
| 燧原科技 | 公开数据有限(累亏超50亿) | 公开数据有限 | 融资近70亿元 | 公开数据有限 |
来源:[6]
一个残酷的算术题:如果一家GPU公司年亏10亿,账上有50亿现金,它还有5年活路。但5年之后呢?如果产品无法形成规模化收入,并购或被并购就是唯一的出口。
2025年5月,海光信息宣布拟以换股方式吸收合并中科曙光,交易金额高达 1160亿元,堪称中国半导体史上最大并购案 [11]。逻辑是:芯片厂(海光)收购整机厂(曙光),实现“芯片→模组→整机→系统”全栈闭环 [12]。
然而,2025年12月9日,这场世纪并购 正式宣告终止。官方原因:“交易规模大、涉及相关方多,方案论证历时较长,且目前市场环境较筹划之初发生较大变化,实施条件尚不成熟” [13]。
更深层的原因,业内分析包括:
海光-曙光案例的启示:国产算力的“航母级整合”方向正确,但执行极其困难。 横向并购在半导体行业绝非简单的“1+1”,而是一场涉及控制权、估值、监管、利益博弈的极限挑战。
芯原股份(688521.SH)作为中国最大半导体IP供应商,正在通过并购构建“CPU+GPU+NPU+接口IP”的全栈能力:
| 时间 | 并购标的 | 标的业务 | 交易目的 | 状态 |
|---|---|---|---|---|
| 2016年 | 图芯美国(Vivante) | GPU IP | 获得GPU IP核,补齐图形IP矩阵 | 已完成 |
| 2025年8月 | 芯来科技(97%股权) | RISC-V CPU IP | 补齐CPU IP,成为国内唯一“CPU+非CPU IP”全栈RISC-V供应商 | 预案阶段 |
| 2025年10月 | 逐点半导体(控制权) | 显示芯片/视觉处理 | 拓展AI-ISP芯片市场 | 推进中 |
来源:[17]
芯原董事长戴伟民明确表示:“产业下行时期是半导体IP行业整合的良好时机。作为半导体IP和一站式芯片定制服务平台的行业龙头,芯原股份非常适合做并购。” [20]
芯原的并购逻辑是典型的“横向IP拼图”——把GPU IP、CPU IP、NPU IP、ISP IP拼成一张完整的AI芯片设计平台。这种模式在全球范围内对标的是ARM(CPU IP)+ Imagination(GPU IP)的组合,但芯原通过并购实现了“一站式”。
这是最具戏剧性的横向整合案例之一:
东芯股份的逻辑是“存、算、联”一体化战略——将自身存储芯片(NAND/DRAM)与砺算的GPU芯片组合,提供存算一体解决方案 [24]。
这是“穷小子娶了落魄公主”的故事。东芯花了不到5亿元,拿到了一家GPU公司的控股权——而这家公司曾在2022年估值数十亿。对于砺算,这是“卖身续命”;对于东芯,这是一张“GPU入场券”。
华为昇腾是目前国产GPU中 唯一实现“芯片+框架+整机+云服务”全栈闭合 的厂商:
关键动作:2021年华为将x86服务器业务剥离为超聚变(后由河南国资接手),自己保留基于鲲鹏/昇腾的服务器业务 [25]。超聚变此后独立发展,2024年营收超400亿元,2025年目标500亿元,并已启动IPO辅导 [26]。
华为对昇腾生态的“收编”体现在:华为掌握芯片定价权、CANN软件栈控制权、以及整机合作伙伴的认证权。整机厂商(如宝德、华鲲振宇)本质上是华为的“渠道+组装”角色,利润率受挤压 [28]。
华为的模式是“帝国式垂直整合”——它不收购你,但你离不开它。昇腾的整机合作伙伴们(宝德、华鲲振宇、超聚变等)本质上是在华为的“领地”内耕作,享受昇腾的品牌红利,但缺乏独立定价权。
阿里平头哥的“真武”PPU是纵向整合的另一个范式:
阿里已形成“通义(大模型)+ 阿里云(云平台)+ 平头哥(芯片)”的“通云哥”全栈AI体系 [30]。2024年平头哥营收中,来自阿里云的内部采购占比约60% [31]——这意味着平头哥在商业化早期,最大客户就是“自己家”。
2026年1月,传出阿里计划推动平头哥独立上市的消息 [32]。这是互联网大厂“孵化→内部供养→分拆上市”的标准路径。
阿里模式是“内部试验场”逻辑——先用自己的云业务养芯片,成熟后再推向市场。平头哥的“真武”本质上是一个“含着金钥匙出生”的富二代,与那些从零开始找客户的独立GPU创业公司相比,起点完全不同。
昆仑芯的路径是纵向整合的“反向操作”——先内部孵化,再独立分拆:
百度明确表示,分拆后昆仑芯 仍将是百度的附属公司 [36]。这意味着昆仑芯上市后,百度仍将保持控制权,同时享受资本市场溢价。
值得注意的是,昆仑芯的“独立”成色有限——据高盛报告,“截至2025年末,昆仑芯外部销售额占比仍较低” [37]。其2024年营收超10亿元(2025年预计达50亿元),但相当比例来自百度内部采购 [38]。
昆仑芯的案例揭示了“大厂内部芯片部门”的尴尬:技术上可以快速迭代(因为有内部场景),但商业化上很难独立行走。分拆上市是“既要百度输血,又要资本市场定价”的两全之策,但独立性的拷问会一直存在。
中国互联网巨头在GPU/AI芯片领域的投资布局,本质上是一场 战略性收编——腾讯、阿里、字节、百度通过投资+采购+生态绑定,将芯片创业公司“驯化”为自身供应链的一环。
| 互联网巨头 | 被投GPU/AI芯片公司 | 持股比例 | 投资轮次 | 战略意图 |
|---|---|---|---|---|
| 腾讯 | 燧原科技 | 约20.26%(第一大股东) | 连续6轮 | 深度绑定:既是最大股东,也是最大客户 |
| 腾讯 | 摩尔线程 | 曾投资,已退出 | 早期 | 字节也曾在2025年1月退出 |
| 阿里 | 平头哥(全资) | 100% | 全资子公司 | “通云哥”全栈AI底座 |
| 阿里 | 瀚博半导体 | 未公开 | 早期 | 边缘推理+视频处理 |
| 阿里 | 清微智能 | 未公开 | 早期 | 可重构计算架构 |
| 百度 | 昆仑芯 | 59.45% | 控股股东 | 百度AI基础设施 |
| 字节跳动 | 摩尔线程 | 曾投资,2025年1月退出 | 早期 | 以约2.3亿元转让股权 |
| 字节跳动 | 华为昇腾 | 采购方 | — | 2025年计划采购240亿元国产AI芯片 |
| 字节跳动 | 天数智芯 | 采购方 | — | 讨论采购至少5万颗推理GPU |
来源:[39]
大厂收编的核心逻辑:
腾讯 × 燧原:最典型的“股东+客户”绑定。腾讯连续6轮投资,持股约20%,是燧原第一大股东。同时,腾讯拥有600多个业务场景,燧原算力在腾讯社交、游戏、办公等场景中大规模落地 [45]。燧原招股书显示,其与腾讯的关联交易占比极高——这也是监管问询的焦点 [46]。
字节跳动:从“投资人”转向“超级采购方”。字节2025年计划采购240亿元国产AI芯片,华为昇腾和寒武纪是主力供应商 [47]。字节还计划向天数智芯采购至少5万颗推理GPU [48]。字节自己的芯片团队也在扩张——2026校招已开放AI芯片架构师、ASIC验证工程师等岗位 [49]。字节的模式是“先采购、再自研、最终可能自给自足”。
阿里:全资控股平头哥,同时通过投资布局生态。阿里已投入3800亿元用于AI基础设施 [50],平头哥芯片“自产自销”的优势是独立GPU创业公司无法比拟的。
互联网大厂对国产GPU创业公司的“收编”正在从“投资”升级为“绑定”。对于创业公司,被大厂“宠幸”是双刃剑——有了稳定的订单和场景,但失去了独立性。更残酷的是,大厂最终可能自研芯片,届时被投公司将从“战略伙伴”变成“竞争对手”。
这是国产GPU行业最“出圈”的整合现象——非半导体行业的上市公司,出于“找第二增长曲线”的目的,跨界投资濒危GPU公司。
安孚科技此前最出名的事迹,是通过一系列资本运作让南孚电池实现上市。如今,这节“南孚电池”给GPU芯片公司续上了命 [54]。
🤣 这可能是全球GPU行业最“魔幻”的一幕:一家卖电池的上市公司,成为了一家GPU独角兽的“白衣骑士”。但换个角度想,这也是中国半导体行业的一个悲哀——专业的半导体产业资本不够充沛,只能靠“外行”来救场。
前文已详述,东芯股份作为存储芯片公司,以累计约4.11亿元投资砺算科技,成为第一大股东 [23]。
2025年11月,品高股份以“4亿元增资+5亿元股权转让”的组合拳,与江原科技形成 双向持股闭环——品高成为江原科技第二大股东(15.42%),江原系也同步成为品高股份第二大股东(12%)[55]。
江原科技2024年营收仅3000万元,净亏损1.47亿元 [56]。品高股份的这笔9亿元投资,赌的是“软硬件一体化”的国产算力未来。
跨界救援的逻辑是:半导体行业太烧钱,专业VC不敢跟,只有“外行”才敢赌。 但这些“外行”的钱能撑多久?当电池、存储、软件公司的耐心耗尽,下一棒谁来接?
基于以上分析,国产GPU行业的整合将沿以下四条主线展开:
海光+曙光 虽然失败了,但方向不会变。未来可能的路径:
判断:海光-曙光案例的失败不代表“国家队整合”方向的失败,而是说明 行政主导的合并面临巨大的执行阻力。未来更可能的是“市场驱动+政策引导”的渐进式整合。
最可能被大厂收编的公司画像:
| 特征 | 符合的公司 | 收编逻辑 |
|---|---|---|
| 大厂已持股>20% | 燧原科技(腾讯持股20%) | 腾讯进一步提升持股比例至控股 |
| 大厂是最大客户 | 燧原科技、天数智芯 | 通过采购协议锁定排他性合作 |
| 技术路线与大厂匹配 | 瀚博半导体(边缘推理→阿里) | 大厂云业务边缘场景需要专用芯片 |
| 估值低、资金紧张 | 象帝先、砺算科技 | 低价收购,补齐GPU能力 |
判断:腾讯对燧原的“收编”已经完成了80%——第一大股东+第一大客户+董事会席位。未来如果燧原IPO不顺利,腾讯进一步增持至控股是大概率事件。
这条路线最不可预测,但也最活跃:
潜在的跨界并购者包括:
判断:跨界并购的驱动力是“找第二曲线”,但风险极高。芯片行业的技术门槛、烧钱速度和竞争烈度,对于“外行”来说往往是“认知盲区”。
这是目前最没有发生的,但逻辑上最可能发生的整合方式:
| 可能的合并组合 | 逻辑 | 障碍 |
|---|---|---|
| 摩尔线程 + 沐曦 | 全功能GPU(MTT)+ AI训推(沐曦),产品互补 | 都已上市,体量接近,谁主导? |
| 壁仞科技 + 天数智芯 | 都是GPUGPU路线,合并可减少重复投资 | 均已上市,整合成本高 |
| 景嘉微 + 象帝先 | 图形GPU(景嘉微)+ 新架构(象帝先) | 一个在长沙,一个在重庆,文化差异大 |
| 燧原科技 + 瀚博半导体 | 腾讯系(燧原)+ 阿里系(瀚博),但股东不同 | 大厂博弈,难以撮合 |
判断:GPU创业公司之间的合并,在2026-2027年可能成为现实。 当IPO窗口关闭、融资环境恶化、产品同质化严重时,两家公司合并以“抱团取暖”是最理性的选择。但最大的障碍是“创始人的ego”——每个GPU创始人都有一个“中国英伟达”的梦,谁愿意当“被合并方”?
国产GPU行业的整合面临一个 不可能三角:
技术自主性
/\
/ \
/ \
/ 不可能 \
/ 三角 \
/ \
/______________\
资本充裕度 市场规模
终局判断:
3-5年内,国产GPU行业将从“20+家公司”收敛到“3-5家核心玩家”。参考全球GPU行业的历史——从1990年代的数十家GPU公司,最终收敛到NVIDIA+AMD两家,中国的收敛速度可能更快。
“华为昇腾”将占据约40-50%的国产算力市场,扮演“中国英伟达”的角色。Bernstein预测2026年华为将以50%市场份额成为国内AI加速器市场Top1 [57]。
剩下2-3家存活者,将分别占据以下生态位:
被并购或边缘化的公司:砺算科技(已被东芯控股)、象帝先(跨界资本续命,但前景不明)、瀚博半导体(生态位窄)、芯瞳半导体(规模太小)。
最可能被并购的公司特征:技术有特色但商业化失败、估值大幅缩水、创始人愿意接受“卖身”、有大厂或上市公司作为潜在买家。
评估全功能GPU、AI专用加速器、CUDA兼容路线、RISC-V GPU IP等路线的未来前景
核心洞察:如果把国产GPU/AI加速器赛道的技术路线之争比作一场”赌石”——全功能GPU是赌”开窗见绿”的翡翠原石,AI专用加速器是赌”一刀切出满色”的和田玉,CUDA兼容路线是赌”高仿”能卖出真品价,RISC-V GPU IP则是赌”自己种玉”能成。2025-2026年,随着摩尔线程盈利、华为昇腾出货量翻倍、燧原科技产品结构失衡等关键信号出现,各条路线的”成色”正在被资本市场和客户需求这两把”强光手电”照得越来越清楚。
在进入预判之前,先厘清一个基础事实:国产GPU/AI加速器赛道并非只有一条路,而是四条主干路线和若干变体并行的”技术丛林”。许多被媒体统称为”国产GPU”的公司,本质上是AI加速器公司而非GPU公司——它们没有完整的图形渲染管线(Graphics Pipeline),不支持DirectX/Vulkan/OpenGL,无法运行游戏、CAD或数字孪生工作负载[63070]。区分这一点对投资判断至关重要——两类公司的市场空间、客户群和竞争壁垒完全不同。
| 路线 | 核心特征 | 代表厂商 | 是否真正”GPU” | 最新关键动态(2025-2026) |
|---|---|---|---|---|
| 全功能GPU | 单芯片覆盖AI计算+3D图形渲染+视频编解码+物理仿真 | 摩尔线程、沐曦、芯动科技(风华)、景嘉微 | ✅ 是 | 摩尔线程2026Q1盈利、花港架构发布;沐曦曦云C600量产;风华3号发布 |
| AI专用加速器(DSA/ASIC) | 自研指令集+自研框架,专注AI训推,放弃图形 | 华为昇腾、寒武纪、燧原、昆仑芯、平头哥 | ❌ 不是 | 昇腾910C量产,2026年预计出货120万张;燧原L600发布但训推一体仅占1.15% |
| CUDA兼容路线 | API层面兼容CUDA,通过源码重新编译或中间件实现迁移 | 摩尔线程(MUSIFY)、沐曦(MXMACA)、壁仞(BIRENSUPA) | ⚠️ 硬件自有,生态借道 | 英伟达EULA禁令引发争议;中国市场监管总局对英伟达反垄断调查 |
| RISC-V GPU IP | 以RISC-V为核心控制CPU+自研GPU着色器IP | 芯动科技(风华3号)、芯原股份(Vitality IP) | ⚠️ GPU IP+芯片 | 风华3号集成南湖V3 RISC-V核;芯原收购芯来失败;NVIDIA将CUDA移植至RISC-V |
关键区分:CUDA兼容不是一条独立的芯片架构路线,而是一种 软件生态策略。它横跨全功能GPU(摩尔线程)、GPGPU(壁仞)、AI加速器(部分厂商)等多条硬件路线,核心问题是”要不要兼容CUDA”而非”芯片是什么架构”。因此,本节将CUDA兼容作为独立维度进行横向评估,而非替代上述硬件路线分类。
全功能GPU路线追求 单芯片同时覆盖四大引擎:AI计算加速、3D图形渲染(支持DirectX 12 Ultimate / Vulkan 1.3 / OpenGL 4.6)、物理仿真、超高清视频编解码[62291]。这本质上是在复制NVIDIA的”一卡打天下”模式——从GeForce游戏卡到Quadro专业卡再到Tesla/A系列数据中心卡,共享同一底层架构。
2025-2026年是全功能GPU路线的”验证之年”,几个关键信号值得关注:
正面信号:
摩尔线程2026年Q1实现盈利:归母净利润2936万元,成为全功能GPU路线首家实现单季度盈利的厂商[61378]。全年营收从2022年的0.46亿飙升至2025年的15.05亿,三年增长超32倍[61394]。这证明全功能GPU路线在商业上是可以跑通的,而非”永远烧钱”。
花港架构发布:2025年12月摩尔线程首届MUSA开发者大会上发布的第五代架构”花港”,算力密度提升50%、能效提升10倍,支持FP4至FP64全精度计算,可支持十万卡以上规模智算集群[62510]。未来将基于该架构推出高性能AI训推一体”华山”芯片与专攻高性能图形渲染的”庐山”芯片[62512]。这表明全功能GPU路线的技术迭代节奏(一年一代)已经建立。
沐曦曦云C600量产:性能介于A100和H100之间,具备FP8计算单元,配备大容量显存(超过H20的96GB版本),基于MetaXLink高速互连技术[62193]。下一代C700系列性能对标H100,预计2027年下半年量产[62189]。
芯动科技风华3号发布:2025年9月,全球首款集成国产开源RISC-V CPU(南湖V3)与CUDA兼容GPU的芯片发布,FP32算力78 TFLOPS,支持DX12/Vulkan/光线追踪[62873]。从IP集成到仿真验证仅用2个月,证明了RISC-V+GPU融合的技术可行性[62889]。
警示信号:
图形性能差距仍然巨大:摩尔线程MTT S80单精度浮点算力仅接近NVIDIA RTX 3060(2021年产品)[62189],景嘉微JM9对标GTX 1080(2016年产品)[63127],与NVIDIA最新RTX 5090的差距在3-5代以上。
游戏/消费级市场几乎不可能突破:NVIDIA和AMD在PC游戏GPU市场积累的软件优化(Game Ready驱动)、开发者关系(GameWorks)和品牌认知,是国产厂商在可预见的未来无法逾越的鸿沟。砺算科技虽然发布了7G100系列显卡(对标RTX 4060),但市场声量和实际出货量仍然有限[62318]。
研发投入巨大:摩尔线程三年累计研发费用约38亿元才勉强跑通,沐曦累计亏损超32.9亿元[62184]。全功能GPU的研发投入是AI专用加速器的2-3倍,对资金实力要求极高。
有利因素:
不利因素与风险:
预判结论:
全功能GPU路线 长期前景最好,但 短期存活率最低。未来3-5年,预计仅有 摩尔线程 和 沐曦(弱化图形版)能真正跑通商业化闭环。景嘉微凭借军用+信创的特殊壁垒可维持生存,但难以进入数据中心AI算力主战场。芯动科技风华3号的RISC-V+GPU融合方案在技术上令人印象深刻,但量产和生态建设仍需时间验证。
关键判断:全功能GPU路线的”全功能”价值在2026年以后才能真正体现——当AI算力市场从”稀缺”走向”过剩”,客户开始关注芯片的 多场景复用能力 和 TCO(总拥有成本) 时,能同时做AI训练+推理+图形渲染+视频处理的芯片,其资产利用率将显著优于AI专用加速器。
AI专用加速器路线的核心信条是:“既然90%的市场需求是AI,为什么还要背着图形渲染的包袱?” 这条路线的厂商主动放弃图形渲染管线,将全部晶体管和芯片面积投入到AI矩阵计算中,追求在特定AI负载上的极致能效比和性价比。这与Google TPU的哲学一致:领域专用,极致效率[63096]。
正面信号:
华为昇腾的规模效应:2025年昇腾芯片出货约52万张,2026年预计翻近3倍至120万张[61064]。昇腾已汇聚400万开发者、3000多家合作伙伴,是唯一在万卡集群层面与NVIDIA正面竞争的国产方案[61065]。2026年Q1发布的昇腾950PR处理器标志着下一代推理算力进入商用阶段[61069]。
寒武纪的盈利拐点:2025年全年营收64.97亿元,同比增长453.21%,实现上市以来首次年度盈利[61086]。2026年Q1营收28.85亿元,净利润10.13亿元,同比增长185.04%[61340]。思元590芯片在大模型训练场景的规模化落地是核心驱动力。
平头哥的”隐形冠军”姿态:累计交付56万片(截至2026年5月),年化营收超百亿规模,外部客户400+家,外部客户占比60%以上[61243]。真武810E性能对标英伟达H20,已在阿里云实现万卡规模部署[61244]。
DSA出货占比持续提升:高盛预测全球AI服务器中DSA架构AI芯片出货占比将从2024年的36%攀升至2027年的45%[63096]。这为DSA路线提供了长期的增量市场空间。
警示信号:
燧原科技的”All In推理”教训:2025年燧原科技训推一体产品收入占比仅1.15%,绝大部分收入来自推理产品[62718]。这意味着燧原在训练市场几乎缺位,而训练市场才是技术壁垒最高的赛道。2025年7月发布的L600训推一体芯片试图回调,但能否在训练市场建立竞争力仍是未知数[62723]。
客户集中度极高:燧原科技2025年前三季度腾讯贡献57.28%收入[62628]。这种极端依赖意味着燧原的命脉被单一客户掌控,议价能力和抗风险能力都较弱。
生态封闭性导致迁移成本高:华为CANN/MindSpore生态与PyTorch的适配存在摩擦和性能损耗[62541]。开发者从CUDA迁移到昇腾的平均耗时被报告为”数周至数月”,而迁移到摩尔线程MUSA或沐曦MXMACA则可能缩短到”数天至数周”。
灵活性不足,新模型架构适配困难:DSA架构对Transformer模型的优化深度硬件化,当出现新的模型架构(如Mamba、RWKV等非Transformer架构)时,适配难度远大于通用GPU。含光800对CNN的极致优化在Transformer时代几乎”报废”的教训值得警惕[62530]。
有利因素:
不利因素与风险:
预判结论:
AI专用加速器路线在 推理场景 上确定性最强,在 训练场景 上仅华为昇腾具备真正的竞争力。未来3-5年,这条路线内部将出现剧烈分化:华为昇腾作为”唯一全栈平台”继续扩大领先优势;寒武纪凭借思元系列的持续迭代和盈利拐点,有望在训练市场占据第二位置;平头哥依托阿里云的内部需求,在推理市场自成一体;燧原科技和昆仑芯则需要在”大客户依赖”和”生态封闭”的双重困境中寻找突破口。
核心判断:AI专用加速器路线的最大风险不是技术,而是 市场天花板。当一个市场被华为昇腾(训练+推理)和平头哥(推理)两大巨头瓜分后,留给其他专用加速器厂商的空间已经非常有限。DSA路线的”效率优势”在华为的规模效应面前,可能被大幅稀释。燧原科技2025年训推一体产品仅占1.15%的极端案例,就是这一困境的缩影——“All In推理”看似务实,实则放弃了技术壁垒最高的训练市场,长期竞争力堪忧[62718]。
CUDA兼容路线的核心逻辑是:“既然CUDA生态已经统治了AI开发者的心智和代码库,与其重新发明轮子,不如让轮子能在我们的车上跑。” 这本质上是一种”搭便车”策略——通过在API层面兼容CUDA,让开发者用最小的迁移成本把NVIDIA上的代码跑在国产芯片上。
国产厂商的CUDA兼容策略分为三种[62982]:
| 策略 | 方式 | 代表厂商 | 法律风险 | 性能损失 |
|---|---|---|---|---|
| 源码重新编译 | 提供工具将CUDA源码重新编译到自研平台 | 摩尔线程(MUSIFY)、沐曦(MXMACA)、壁仞(BIRENSUPA) | 🟡 较低 | 10-30% |
| 二进制翻译/转译 | 运行时直接翻译CUDA二进制 | ZLUDA类方案 | 🔴 高 | 35-50% |
| 自主架构不兼容 | 全自研,不依赖CUDA | 华为昇腾、寒武纪、燧原 | 🟢 极低 | 0%(但需重写代码) |
正面信号:
摩尔线程MUSIFY不涉及EULA条款:摩尔线程明确声明MUSA/MUSIFY不涉及英伟达EULA相关条款,开发者可放心使用[62981]。这是因为MUSIFY走的是源码重新编译路线,而非二进制翻译。
中国市场监管总局对英伟达反垄断调查:2025年12月,中国市场监管总局宣布英伟达违反中国反垄断法,可能面临上一年度营收1%-10%的罚款[62931]。这一调查显著削弱了英伟达在中国境内执行CUDA EULA的法律基础,为CUDA兼容路线提供了”保护伞”。
商业验证已有数据支撑:摩尔线程2026年Q1营收7.38亿元并实现盈利,沐曦2025年营收15-19.8亿元,壁仞科技2026年1月港股上市——三家CUDA兼容路线的核心厂商均已越过”商业化验证”的门槛[61378]。
沐曦MXMACA兼容6000+ CUDA应用:沐曦MXMACA号称兼容6000+ CUDA应用和1000+模型原生适配,已与华为欧拉、麒麟OS、openKylin等国产操作系统完成适配[62980]。
警示信号:
英伟达EULA禁令的威慑效应:英伟达在CUDA 11.6版本中明确禁止”对使用SDK元素生成的任何输出部分进行逆向工程、反编译或拆解,以将此类输出工件转换为目标非NVIDIA平台”[62457]。虽然源码重新编译路线不直接触发这一禁令,但法律风险的不确定性仍然存在。
ZLUDA项目的命运是前车之鉴:AMD曾资助ZLUDA项目(CUDA二进制翻译到ROCm),但在2024年因法律风险要求开发者删除代码[62736]。这表明即使是国际大厂,在CUDA兼容问题上面临的法律压力也是巨大的。
“兼容”不等于”等同”:即使API兼容,实际性能差异、隐蔽bug和优化成本仍是重大障碍。天数智芯通过DeepLink中间件将CUDA Kernel自动转译,性能损失高达35%-50%[62688]。这意味着在高端训练场景,CUDA兼容路线可能永远追不上NVIDIA的”原生性能”。
策略本身的”天花板”:CUDA兼容路线本质上是”跟随策略”——当NVIDIA推出新特性(如Blackwell的FP4 Tensor Core、NVLink 5.0),兼容厂商需要时间追赶。永远落后一代,是这个策略的宿命。
有利因素:
不利因素与风险:
预判结论:
CUDA兼容路线是 未来3-5年内最务实、最有效的商业策略,但也是 长期最有风险的路线。它在中期(3-5年内)将帮助国产GPU厂商以最低成本获取客户和市场份额,但在长期(5-10年),随着CUDA生态的持续演进和英伟达专利武器化风险的上升,这一策略的可持续性存疑。
关键判断:真正的胜负手不在于”是否兼容CUDA”,而在于 能否在兼容的同时,建立起自己不可替代的护城河。摩尔线程正在通过”全功能GPU+万卡集群+自有MUSA生态”构建差异化壁垒;沐曦则通过”训推一体+国产供应链”走差异化路线。纯靠CUDA兼容而没有自己独特价值的厂商,将被淘汰。
RISC-V GPU IP路线的核心逻辑是:利用开源RISC-V指令集作为GPU的控制核心,绕开ARM/x86的授权费和地缘政治风险,同时通过自研GPU着色器核心实现图形渲染能力。这条路线的底层叙事是”全自主可控+免授权费+开源生态”。
正面信号:
芯动科技风华3号的技术验证:风华3号是全球首款将RISC-V CPU与CUDA兼容GPU深度融合的芯片,集成北京开源芯片研究院”南湖V3”RISC-V核,从IP集成到仿真验证仅用2个月,FP32算力78 TFLOPS,支持DX12/Vulkan/光线追踪[62873]。这证明了RISC-V+GPU在技术上是完全可行的。
芯原Vitality GPU IP支持DX12:芯原2024年12月推出的Vitality架构GPU IP支持DirectX 12 API,可配置Tensor Core AI加速器,面向云游戏/AI PC/独立显卡/集成显卡场景[62898]。这为RISC-V+GPU的IP组合方案提供了技术基础。
NVIDIA已宣布将CUDA移植至RISC-V(2025年7月),验证了RISC-V在高性能计算领域的长期可行性[62315]。
政策东风强劲:2025年3月,据路透社报道,中国计划发布政策鼓励全国范围内使用RISC-V芯片,政府机构草案要求所有新国产IoT芯片在2027年前采用RISC-V ISA[62218]。上海等地也加码RISC-V开源生态建设[62306]。
香山IP核已实现量产交付:2025年RISC-V中国峰会期间,北京开源芯片研究院宣布第三代”香山”(昆明湖)IP核已实现首批量产客户的产品级交付[62298]。
警示信号:
RISC-V是控制CPU,GPU核心仍是私有架构:风华3号中RISC-V”南湖”核负责计算数据调度、跨芯片通讯、启动控制、功耗管理等协控职能,GPU的图形渲染核心和AI计算核心并非RISC-V架构[62889]。这与”纯RISC-V GPU”是两个完全不同的概念。
芯原收购芯来失败:2025年12月,芯原宣布终止收购芯来科技(国内领先RISC-V CPU IP企业),原因是”标的公司管理层及交易对方提出的核心诉求与市场环境、政策要求及公司和全体股东利益存在偏差”[62990]。这意味着RISC-V CPU IP + GPU IP的深度整合缺少了一个关键环节。
软件生态差距巨大:相比x86+Windows和ARM+Android的成熟生态,RISC-V桌面/图形软件栈仍在构建中。Imagination GPU IP目前是RISC-V桌面生态中”可点亮的唯一GPU IP选择”[62323]。
商业化路径不清晰:RISC-V GPU IP的商业模式是IP授权,这与自研芯片的商业模式完全不同。芯原的GPU IP授权业务虽然稳定(全球GPU IP市场占有率前三),但营收规模和增速远不及自研芯片厂商[62907]。
有利因素:
不利因素与风险:
预判结论:
RISC-V GPU IP路线是 长期最值得关注的技术方向,但 未来3-5年内不会成为主流商业路线。它的核心价值在于:为中国GPU产业提供了一条”全自主可控”的技术底座,在极端地缘政治情境下(如ARM/x86授权被完全切断)具有战略备份价值。但短期内,RISC-V GPU IP的商业模式天花板较低,且软件生态建设需要至少5-10年时间。
关键判断:RISC-V在GPU中的角色,未来3-5年内将局限于”协控CPU”,而非”着色器核心”。RISC-V GPU IP的真正价值在于:它让中国GPU厂商可以摆脱对ARM Mali/Imagination等第三方GPU IP的依赖,实现从CPU核到GPU核的”全栈自主”。但这更像是一个 战略保险 而非 商业武器。
2025-2026年出现了一个值得关注的新趋势:路线之间的边界正在模糊化。
| 趋势 | 具体表现 | 意义 |
|---|---|---|
| 全功能GPU+DSA融合 | 摩尔线程”花港”架构同时推出”华山”(AI训推一体)和”庐山”(图形渲染)两条芯片路线[62512] | 用同一架构覆盖AI专用和图形专用,兼顾效率与通用性 |
| GPGPU向全功能GPU靠拢 | 壁仞BR20X”在保持训练领先优势的同时,精准卡位推理时代”[62405];天数智芯构建”训练+推理+端侧”全产品矩阵[62843] | 纯GPGPU路线空间被挤压,必须向两端延伸 |
| DSA向训推一体回调 | 燧原从”All In推理”→L600训推一体芯片[62723] | 训练市场是技术壁垒最高的赛道,完全放弃将丧失长期竞争力 |
| RISC-V+GPU从IP走向芯片 | 芯动科技风华3号集成RISC-V核并实现全功能GPU[62873] | RISC-V不再只是”协控CPU”,而是与GPU深度融合 |
| CUDA兼容从”借道”走向”自有生态” | 摩尔线程MUSA开发者大会2025召开,强调MUSA自有生态而非单纯兼容CUDA[62203] | 兼容是手段,自有生态才是目的 |
关键判断:路线融合意味着 “纯种”路线将越来越难以独立生存。未来3-5年能存活下来的厂商,大概率是那些”以某条路线为主、同时吸收其他路线优势”的”混血”选手。纯GPGPU(不升级全功能)、纯推理(不涉足训练)、纯图形(无AI能力)的厂商将面临严重的生存危机。
| 风险层级 | 路线 | 风险描述 | 触发条件 |
|---|---|---|---|
| 🔴 高风险 | 纯GPGPU(不升级全功能) | 夹在全功能GPU和AI专用加速器之间,差异化空间消失 | 壁仞/天数未能通过BR20X/天垓Gen3证明训练+推理双线能力 |
| 🔴 高风险 | ”All In推理”(放弃训练) | 放弃技术壁垒最高的赛道,长期竞争力堪忧 | 燧原L600训推一体未能获得客户认可,训练市场彻底失守 |
| 🟡 中高风险 | 纯CUDA兼容(无自研壁垒) | 长期不可持续,必须建立自有生态护城河 | 英伟达专利诉讼或EULA执行力度加大 |
| 🟡 中风险 | 纯图形GPU(无AI能力) | 信创+军用市场足以养活1-2家,但增长空间有限 | 景嘉微/砺算科技未能拓展AI推理能力 |
| 🟢 低风险 | 全功能GPU+自研生态 | 场景覆盖最广,长期壁垒最高 | 摩尔线程花港架构量产顺利,生态建设持续推进 |
| 🟢 低风险 | DSA+全栈生态(华为昇腾) | 规模效应已形成,生态壁垒高 | 美国制裁进一步升级,影响先进制程供应 |
“全功能GPU(AI训练推理+图形渲染)+ AI专用加速器(推理优化)+ CUDA兼容(迁移桥梁)” 三者将构成中国国产算力底座的主流技术路线组合,而非某一条路线”一统天下”。
具体而言:
| 路线 | 失败风险 | 逻辑 |
|---|---|---|
| 纯GPGPU(不升级全功能) | 🔴 高 | 夹在全功能GPU和AI专用加速器之间,差异化空间消失 |
| 纯图形GPU(无AI能力) | 🟡 中 | 信创+军用市场足以养活1-2家,但增长空间有限 |
| 纯CUDA兼容(无自研壁垒) | 🟡 中高 | 长期不可持续,必须建立自有生态护城河 |
| ”All In推理”(放弃训练) | 🔴 高 | 燧原2025年的实践已证明过于激进,已回调 |
| RISC-V纯GPU着色器 | 🟢 低(尚不存在) | 目前无人走此路线,风险不适用 |
摩尔线程的”花港”架构能否实现”AI+图形”的真正融合:2026年量产的”花港”架构号称算力密度提升50%、能效提升10倍、支持十万卡集群[62510]。如果兑现,它将是全功能GPU路线的最强实证。
华为昇腾的全自研生态能否实现”自我造血”:400万开发者、3000+合作伙伴已经形成一个足够大的生态,但关键在于:开发者使用昇腾是”主动选择”还是”被动接受”?如果是后者,一旦制裁放松,生态可能快速流失。
芯动科技风华3号的RISC-V+GPU方案能否规模量产:技术验证成功≠商业成功。风华3号的量产出货量和客户反馈将是判断RISC-V GPU IP路线可行性的关键数据点。
燧原科技的”训推一体回调”(L600)能否成功:从”All In推理”重新走向”训推一体”,L600的市场表现将决定燧原能否摆脱”大客户依赖”和”训练缺位”的双重困境。
壁仞BR20X能否在2026年实现”训练+推理”双线突破:BR100被制裁后,壁仞的技术路线调整是否成功,BR20X的客户反馈将是关键验证。
一句话总结:技术路线没有绝对的对错,只有”是否适合当下的市场”和”能否在窗口期内跑通商业闭环”。全功能GPU路线最像NVIDIA的成功路径,但最难走;AI专用加速器路线效率最高,但天花板最明显;CUDA兼容路线最聪明,但最不可持续;RISC-V GPU IP路线最”政治正确”,但离商业化最远。未来3-5年,赢家不是”选择正确路线”的厂商,而是”能在所选路线上率先实现盈利和自我造血”的厂商。
判断能否形成类似CUDA的稳固生态,或长期处于多平台割据状态
核心判断:短期(3‑5 年)内出现类似 CUDA 的单一垄断性生态的概率极低。更可能出现的是“分层统一”——底层运行时接口趋同、上层框架与芯片解耦的中间件层出现、各厂商自有生态在兼容层之上并存。FlagOS 和华为 CANN 开源是两条最有希望的“凝结核”路径,但能否真正统一生态,取决于华为是否愿意放弃 CANN 的排他性,以及互联网大厂是否愿意为统一中间层买单。
截至 2026 年中,中国国产 GPU/AI 加速器赛道已形成 至少 8 套互不兼容的主力软件栈。每一套软件栈都对应着独特的硬件架构,从 NPU 到 GPGPU,从 SIMD 到 SIMT,从授权指令集到自研指令集——软件栈碎片化首先是硬件碎片化的投影。[63525]
| 厂商 | 软件栈名称 | 底层架构 | 是否开源 | 对标/兼容对象 | CUDA 迁移方式 |
|---|---|---|---|---|---|
| 华为昇腾 | CANN | 达芬奇 NPU → 转向 GPGPU | 2025.8 全面开源 | 自研,对标 CUDA | 框架层兼容 PyTorch/TF |
| 寒武纪 | NeuWare | MLU 专用架构 | 部分开源(AI编译器) | 自研 | 指令转译(15‑20%性能损耗)[63560] |
| 海光 DCU | DTK | AMD CDNA 授权 + ROCm | 开源基础(ROCm) | ROCm/CUDA | HIP 转译(迁移成本最低,~15人天)[63427] |
| 摩尔线程 | MUSA | 自研全功能 GPU | 大部分闭源(仅3个开源库)[63502] | CUDA | MUSIFY 工具自动转换 |
| 壁仞科技 | BIRENSUPA | 自研 GPGPU | 闭源[63504] | CUDA | 兼容头文件 biren_cuda.h[63213] |
| 沐曦 | MXMACA | 自研 GPU IP | 未完全开源 | CUDA | 兼容 CUDA 生态,6000+应用适配[63216] |
| 燧原科技 | 驭算/TopsCC | 自研架构 | 闭源 | 独立生态 | 不追求 100% 兼容 CUDA[63233] |
| 天数智芯 | DeepLink | 自研 GPGPU | 开源社区 | CUDA/OpenCL | 中间件自动转译(性能损失35‑50%)[63207] |
这些软件栈的差异不是“换皮”级别——它们反映的是底层硬件架构的根本性差异。正如业内所感叹:“海光有 DCU,摩尔线程有 MUSA,壁仞有 BIRENSUPA……每一家都有一套自己的编程模型。对于下游软件开发商来说,适配这七八套系统简直是噩梦。”[63414] 更棘手的是,各家的开源自研比例极低:摩尔线程在 GitHub 仅公开 3 个库,壁仞的 BIRENSUPA 同样闭源,生态构建完全依赖厂商自身资源,难以形成社区合力。[63222]
架构师注:打个比方,现在的情况不是“八家汽车厂各自造了不同的方向盘”,而是“八家厂分别造了燃油车、电动车、氢能车、摩托车、拖拉机,然后各自宣称自己的驾驶舱操作规程才是行业标准”。统一的前提是大家都决定造“汽车”——但这个前提目前就不成立。
尽管碎片化严重,但 2024‑2026 年间出现了三股推动统一的重要力量:
FlagOS 由北京智源人工智能研究院牵头研发,定位为 面向多种 AI 芯片的统一开源系统软件栈。截至 2026 年 3 月发布的 FlagOS 2.0,已实现对 18 家厂商、32 款 AI 芯片 的全场景支持,覆盖从大模型训推到具身智能与科学计算 [63555]。
FlagOS 的核心组件包括:
寒武纪于 2025 年 9 月全面完成对 FlagOS 全栈组件的适配与优化 [63541],清微智能、昆仑芯、摩尔线程、华为昇腾、海光均被列为“FlagOS 卓越适配单位”[63543]。
架构师判断:FlagOS 是目前最接近“统一中间层”的实践。它的核心价值不是替代各家软件栈,而是提供一层“翻译层”——让上层应用(PyTorch 模型)通过 FlagOS 调度到底层不同芯片,类似于 LLVM 在编译器领域的角色。但 FlagOS 面临的核心挑战是:性能损失能否控制在可接受范围,以及 互联网大厂是否愿意在生产环境中使用这个中间层而不是直接对接芯片原生 SDK。
2025 年 8 月 5 日,华为轮值董事长徐直军在昇腾计算产业发展峰会上宣布 CANN 全面开源开放,Mind 系列应用使能套件及工具链同步开源 [63445]。这是华为昇腾生态从“封闭自建”到“开放竞争”的战略转折。
CANN 开源有几个关键背景:
寒武纪、摩尔线程等芯片厂商已宣布适配 CANN 架构,形成国产算力联盟 [63508]。这意味着 CANN 有潜力成为“国产 AI 芯片的公共编程框架”——就像 CUDA 之于英伟达生态,但 CANN 如果真正开放给第三方硬件,它可能成为比 CUDA 更开放的“行业标准”。
架构师注:CANN 开源的本质是华为的“生态防御战”——当其他厂商的 PyTorch 兼容性追上来时,华为需要让 CANN 成为“中国 AI 开发者默认安装的那个东西”。但问题是,华为是否愿意让 CANN 在友商硬件上跑得和昇腾一样好?如果答案是否定的,那 CANN 开源就只是“展示诚意”而非“真的开放”。目前 CANN 并没有兼容其他厂商硬件的明确计划,生态封闭性依然很强。[63247]
多个行业组织正在从标准层面推动统一:
| 组织/联盟 | 核心工作 | 进展 |
|---|---|---|
| 中国 GPU 软件栈联盟(CGSA) | 联合定义《国产 GPU 统一运行时接口规范 V1.0》草案,覆盖 Device Management、Memory Pool、Async Stream 等 12 类核心 API | 草案阶段,摩尔线程、壁仞、寒武纪等已加入 [63307] |
| 全球计算联盟(GCC) | 发布《异构算力协同白皮书》,聚焦统一计算、统一通信、统一调度、统一评测四大体系 [63384] | 2025年8月发布,中国电信、信通院、智源联合牵头 |
| 海光 HSL 1.0 | 互联规范,提供从总线协议、IP 设计到指令集的全栈定义,实现海光 CPU 与多元 AI 芯片紧耦合互联 [63496] | 已发布,面向产业链开放 |
| 中国异构计算联盟(CHCC) | 提出统一编程标准提案 [63204] | 尚在提案阶段 |
与推动统一的力量相比,阻碍统一的力量同样强大——甚至更强:
NPU(昇腾、寒武纪)、GPGPU(壁仞、天数智芯)、全功能 GPU(摩尔线程、砺算)、ROCm 兼容(海光)——这些芯片的底层指令集、计算单元设计、内存模型、互联协议完全不同。软件栈统一的前提是硬件抽象层的统一,而硬件抽象层的统一要求所有芯片都收敛到相似的架构范式。 这在 3‑5 年内几乎不可能。[63525]
打个比方:你可以给燃油车、电动车、氢能车制定统一的“驾驶执照考试标准”,但你不能要求三家车厂共用同一套发动机控制软件。运行时接口可以统一,但底层编译器、算子库、通信库的优化永远需要针对特定硬件。
摩尔线程的 MUSA 兼容 CUDA C++ 核心语义,语法级兼容 Triton 语言;沐曦的 MXMACA 兼容 6000+ CUDA 应用;壁仞的 BIRENSUPA 提供 biren_cuda.h 头文件直接映射 CUDA API [63213]。
这些“兼容 CUDA”的策略本质上都在说同一句话:“你可以不学我的东西,直接用你熟悉的 CUDA 代码跑。” 如果所有厂商都兼容 CUDA,那它们之间天然就形成了某种“公约数”——CUDA API 本身就成了事实上的统一接口。但问题在于,每家厂商的兼容度不同(60%‑95%不等),而且英伟达 2024 年已明确禁止在非英伟达 GPU 上通过转译层运行 CUDA 软件 [63205]。兼容 CUDA 本身需要巨大投入,涉及 50 个驱动、50 个编译器、50 个数学库、300 个应用层工程师,持续 3‑5 年 [63410]。
架构师注:这就是国产 GPU 最讽刺的处境——它们都在追赶 CUDA,但 CUDA 是被法律保护、禁止第三方兼容的。如果有一天英伟达加大法律执行力度,那些“高度兼容 CUDA”的厂商反而会成为最脆弱的靶子。
百度昆仑芯、阿里平头哥真武、字节跳动 SeedChip——这些互联网大厂的自研芯片只服务于自己的 AI 业务,没有动力去适配第三方软件栈。它们的生态是“封闭内循环”——昆仑芯 + 飞桨 / 真武 + 阿里云 / SeedChip + 字节内部框架。这些芯片的出货量不容小觑,但它们既不参与统一生态建设,也不对外开放接口,实质上是“生态割据的加速器”。[63510]
这是最根本的阻碍。CUDA 之所以能统一英伟达生态,是因为英伟达是唯一的硬件供应商——CUDA 的“统一”是 公司内部的统一,不是竞品之间的妥协。
而国产 GPU 赛道中,华为昇腾占据约 50% 市场份额(Bernstein 预测 2026 年本土市占率 80% 中华为占 50%)[63498],它是唯一可能“像英伟达一样统一生态”的玩家。但如果华为的 CANN 成为行业标准,其他厂商(摩尔线程、壁仞、沐曦)就变成了“在华为平台上跑的二等公民”——它们怎么可能自愿接受?
正如一位业内人士的犀利总结:
“要么几个头部(昇腾 + 壁仞 + 沐曦之类)搞一个‘统一上层 API’,要么大家继续各自为战。但前者的问题是——谁主导?谁收钱?谁说了算?这比统一硬件架构还难。” [63318]
基于以上分析,我们推演未来 3‑5 年国产 GPU 生态格局的三种可能场景:
这是最可能出现的场景。不同层级形成不同程度的统一:
| 层级 | 统一程度 | 主导力量 |
|---|---|---|
| 应用层(PyTorch/TensorFlow) | ✅ 天然统一 | 开源社区 |
| 中间件/调度层(FlagOS) | 🟡 逐步统一 | 智源 + 政府 + 大厂联盟 |
| 运行时 API(CGSA 规范) | 🟡 接口趋同 | 行业联盟 + 工信部 |
| 编译器/算子库 | ❌ 各自为战 | 各厂商 |
| 硬件指令集/架构 | ❌ 永远不同 | 各厂商 |
在这种场景下,开发者使用 PyTorch → FlagOS 统一调度 → 各厂商原生 SDK 执行,类似于 Android 的“统一应用层 + 各厂商 HAL 层”的架构。FlagOS 和 CGSA 规范是关键的“胶水层”。
优势:不需要厂商放弃竞争优势,兼容现有生态,渐进式推进。 风险:中间层性能损失,互联网大厂可能跳过中间层直接对接原生 SDK。
如果华为昇腾的市场份额持续扩大(到 2028 年超过 60%),且 CANN 开源后质量和生态建设远超竞品,CANN 可能成为事实上的“国产 AI 芯片标准”。
关键触发条件:
但华为面临一个根本性矛盾:如果 CANN 在友商硬件上跑得和昇腾一样好,那昇腾硬件的优势何在?如果跑得不好,那友商为什么要加入 CANN 生态?这个“既当裁判员又当运动员”的困境,决定了 CANN 很难成为真正中立的“行业标准”。
如果 FlagOS 推进缓慢、CANN 开源后社区活跃度不及预期、各厂商继续各自为战,那么“多平台割据”将成为长期状态——每家厂商都维持一个“小而美”的生态,开发者和 ISV 需要适配 3‑5 套软件栈,迁移成本居高不下。
这种场景下,市场会通过“残酷的客户选择”来实现事实上的统一——客户只会选择 1‑2 家生态最好的厂商,其余厂商自然淘汰。这不是“联盟统一”,而是“市场统一”。
必须清醒认识到:CUDA 的“统一生态”是英伟达一家公司内部的产品决策,而中国 GPU 生态的“统一”是十几家竞争关系的公司之间的协调博弈。 两者的难度不在一个数量级上。
| 维度 | CUDA 统一路径 | 国产 GPU 统一路径 |
|---|---|---|
| 决策主体 | 英伟达一家公司 | 十几家竞争公司 + 政府 + 行业联盟 |
| 硬件架构 | 统一(英伟达 GPU) | 碎片化(NPU/GPGPU/全功能GPU) |
| 资金来源 | 英伟达统一投入 | 各自融资,各自投入 |
| 时间积累 | 2006年至今,19年 | 起步于2018‑2022年,3‑8年 |
| 开发者规模 | 500万+ [63300] | 不足10万(国产 GPU 开发者)[63362] |
| 法律风险 | 无(自有生态) | 兼容 CUDA 面临法律风险 [63205] |
架构师注:业内常说的“打造中国版 CUDA”是一个危险的口号——它暗示只需要复制 CUDA 的技术栈,却忽略了 CUDA 的成功建立在“一家公司控制所有硬件”的前提之上。国产 GPU 的生态统一,更恰当的类比是“在没有微软的情况下让 Linux 发行版们统一包管理格式”——技术上是可行的,商业上是困难的。
长期割据(5年以上)是大概率事件,但“割据”不等于“混乱”。
更精确的判断是:
不会出现“中国的 CUDA”——没有一家公司能像英伟达那样同时控制硬件和软件生态,华为昇腾是最接近的,但市场份额还远未达到垄断级别。
会出现“中国的 DirectX/OpenCL”——即一套跨厂商的统一 API 规范(CGSA 运行时接口 + FlagOS 中间件),让开发者在应用层无需关心底层硬件。但性能优化仍需针对特定硬件。
“兼容 CUDA”将长期是事实标准——因为所有厂商都在兼容 CUDA,CUDA API 本身就成了“公约数”。这类似于 Linux 生态中 gcc 虽然不是标准委员会制定的,但它是事实上的标准编译器。
市场淘汰赛将自然减少生态碎片化——当行业从 20+ 家厂商收敛到 3‑5 家时,生态碎片化自然减轻。这不是“统一”的结果,而是“幸存者偏差”的结果。
华为 CANN 和 FlagOS 的竞合关系值得关注——如果 CANN 成为昇腾专用、FlagOS 成为跨厂商通用,两者形成“底层实现 + 上层抽象”的分工,那将是最理想的结果。但如果两者直接竞争,统一进程将更加漫长。
最终判断:别指望国产 GPU 生态会像 CUDA 那样“大一统”——这既不现实,也没必要。真正的目标是:让 PyTorch 模型在国产 GPU 上运行时,开发者不需要关心底层是哪家芯片。 这个目标在 2028 年前通过 FlagOS + CGSA + 各厂商原生适配的组合拳,是有可能实现的。但“统一”的不是生态,而是“接口”——生态永远是多元的,接口才是可以标准化的。
分析当前智算中心国产化率、采购规模能否养活众多厂商
如果把国产GPU/AI芯片厂商比作围坐在一张餐桌旁的食客,那么智算中心就是这张桌子上最大的那张饼。问题是:这张饼到底有多大?桌上坐了多少人?每个人能分到多少?够不够吃?
本节用公开数据做一道冷冰冰的算术题。
不同机构对“中国AI芯片市场”的口径不一,需要先厘清数字:
| 数据来源 | 口径 | 2025年规模 | 说明 |
|---|---|---|---|
| Bernstein Research | AI加速器销售额 | 约260亿美元(~1900亿元) | 按销售额计,华为 |
| IDC | AI加速卡出货量 | 约400万张 | 国产165万张(41%),英伟达220万张(55%)[2] |
| 中商产业研究院 | 中国智算中心市场 | 1356亿元 | 含土建、机电、IT设备等全口径 [3] |
| 弗若斯特沙利文 | 中国AI芯片市场 | 1425亿元(2024)→ 预测2029年1.34万亿元 | 含云端+边缘+终端 [4] |
| IDC | 中国AI加速服务器 | 2025H1达160亿美元 | 同比翻倍 [5] |
| 中国工业互联网研究院 | 工业智算市场 | 632亿元(2025) | 仅工业领域 [6] |
| 行业综合估算 | 中国AI芯片采购总金额 | 约2760亿元(380亿美元) | 含国内外所有芯片 [7] |
关键结论:2025年中国AI芯片的有效市场规模(仅芯片采购,不含土建/服务器整机/运维)约在 2500-2800亿元人民币。其中,国产厂商能拿到的份额约为 1160亿元(160亿美元)[8]。
这张1160亿元的国产“饼”,分配结构极度不均:
| 厂商 | 2025年AI芯片销售额(估算) | 占国产份额 | 占总量 | 数据来源 |
|---|---|---|---|---|
| 华为昇腾 | ~750亿元(103亿美元) | ~64% | ~27% | Bernstein [1] |
| 寒武纪 | ~73亿元(10亿美元) | ~6% | ~2.6% | Bernstein [1],2025全年营收约64亿元 [9] |
| 海光信息 | ~81亿元(11.2亿美元) | ~7% | ~2.9% | Bernstein [1] |
| 阿里平头哥 | ~50-60亿元(估) | ~4-5% | ~2% | 2024出货26.5万张推算 [10] |
| 百度昆仑芯 | ~50亿元(2025年预计) | ~4% | ~1.8% | 公开报道 [11] |
| “GPU四小龙”合计 | ~52亿元 | ~4.5% | ~1.9% | 各自年报 [12] |
| 其中:摩尔线程 | ~15亿元 | [12] | ||
| 其中:沐曦股份 | ~16亿元 | [13] | ||
| 其中:壁仞科技 | ~10亿元 | [14] | ||
| 其中:天数智芯 | ~10亿元 | [15] | ||
| 燧原科技 | ~10亿元 | ~0.9% | ~0.4% | [9] |
| 其余10+家厂商 | ~30-50亿元(估) | ~3-4% | ~1% | 含景嘉微、瀚博、登临等 |
一个残酷的集中度事实:华为昇腾一家吃掉国产份额的64% [1]。前5大(华为+寒武纪+海光+平头哥+昆仑芯)合计吃掉了约85%。剩下的~15%(约175亿元)由”GPU四小龙”、燧原、景嘉微、瀚博、登临、芯动、砺算、象帝先、芯瞳等 十余家甚至更多 厂商分食 [16]。
GPU芯片公司的”生存算术”极为残酷:
| 关键指标 | 典型数值 | 说明 |
|---|---|---|
| 年研发投入 | 10-15亿元 | 摩尔线程2022-2024三年研发38.1亿元 [17];壁仞三年27.3亿元 [18];沐曦三年22.5亿元 [19] |
| 年经营费用(含研发) | 15-20亿元 | 含研发、销售、管理 |
| 盈亏平衡所需营收 | 20-30亿元 | 摩尔线程预计2027年实现盈利 [20];沐曦预计2026年盈亏平衡 [20] |
| 毛利率 | 50-65% | 摩尔线程 |
| “烧钱续命”所需现金储备 | 50亿元+ | 摩尔线程IPO募资80亿元 [22];沐曦IPO后可用资金72.9亿元 [23] |
做一个简单的算术:
现实是:2025年”GPU四小龙”各自的营收在10-16亿元,全部距离盈亏平衡线还有相当距离 [12]。
现在把”饼”和”吃饼的人”放在一起看:
| 维度 | 数据 | 含义 |
|---|---|---|
| 国产AI芯片可触达市场规模(2025) | ~1160亿元 | 国产厂商能拿到的总量 |
| 华为一家拿走 | ~750亿元(64%) | 华为内部采购+政企+运营商 |
| 前5大拿走 | ~985亿元(85%) | 华为+寒武纪+海光+平头哥+昆仑芯 |
| 剩余给10+家中小厂商 | ~175亿元 | 15%的残羹 |
| 每家中小厂商盈亏平衡线 | 20-30亿元 | 不含华为系 |
| 理论上能养活的”非华为”厂商数量 | 6-9家 | 前提:每家都达到盈亏平衡 |
| 实际仍在活跃的”非华为”厂商数量 | 15-20家+ | 深芯盟统计70余家国产芯片厂商 [24] |
结论:当前市场能养活的”非华为系”独立GPU/AI芯片厂商不会超过10家,且前提是每家都恰好达到盈亏平衡线。 现实是,2025年”GPU四小龙”合计营收仅52亿元,平均每家13亿元,全部在亏损 [12]。
但故事并未结束,因为政策正在”强制把饼做大”:
| 地区 | 国产化率要求 | 时间节点 | 来源 |
|---|---|---|---|
| 上海 | 自主可控算力占比超70% | 2027年 | [25] |
| 北京 | 100%自主可控智算中心建设能力 | 2027年 | [26] |
| 广东 | 新增国产化算力占比70% | 2027年底 | [27] |
| 国资委”79号文” | 央国企核心业务系统全面信创替代 | 2027年 | [28] |
| 科技部政策 | 公共算力平台国产芯片算力≥60%,国产框架使用率≥60% | 已在执行 | [29] |
这意味着什么?做一个推演:
这意味着,到2027年,政策驱动的国产化率提升,理论上可以将”非华为”市场蛋糕从175亿元扩大到1500-1700亿元,足以支撑10-15家年营收20-30亿元的独立厂商。
但这里有一个关键前提:国产芯片真的能用起来。
智算中心的”国产化率”目标不等于”国产芯片利用率”。这里存在一个极为尴尬的断层:
| 问题 | 数据 | 来源 |
|---|---|---|
| 智算中心平均利用率 | 不足30%-45% | [30] |
| 部分国产芯片闲置率 | 高达70%-80% | [32] |
| 核心原因 | 生态不完善、软件不适配、测试数据不理想、企业”用不起来” | [32] |
| 2025Q1智算中心项目状态 | 165个项目中仅16个投产/试运行,绝大多数在建或筹建 | [34] |
一位业内人士直言:“由于生态还不完善,一些国产卡的测试数据并不理想,企业用不起来,闲置率可能高达70%-80%甚至更高” [32]。
换言之,政策要求”买国产”,但买回去之后能不能用起来是另一回事。 如果国产芯片的”有效利用率”只有30%,那么即使政策把国产化率推到70%,实际产生的算力价值也只有21%。这将倒逼客户在”国产化率合规”和”真实算力需求”之间做出艰难选择——大概率是”买一部分国产交差,核心业务继续用英伟达”。
| 预测指标 | 2025年 | 2029年(预测) | CAGR | 来源 |
|---|---|---|---|---|
| 中国AI芯片市场规模 | 1425亿元 | 1.34万亿元 | 53.7% | 弗若斯特沙利文 [4] |
| 中国AI加速服务器 | 380亿美元 | 1400亿美元 | ~39% | IDC [35] |
| 中国智算中心市场 | 1356亿元 | 未明确 | — | 中商产业研究院 [3] |
| 中国AI智算GPU | 996.72亿元 | 10333.40亿元 | 56.7% | 行业预测 [36] |
如果市场真的以50%+的CAGR增长,到2029年达到1.34万亿元,那么即使华为拿走40%,留给非华为厂商的也有约 8000亿元——这足以养活几十家公司。
但问题在于:
综合以上所有变量,我们做一个敏感性分析:
| 情景 | 假设条件 | 可养活的非华为GPU厂商数量 |
|---|---|---|
| 悲观情景 | 市场增速放缓至20%,国产化率停滞在50%,闲置率居高不下,英伟达H200大规模回归 | 3-5家 |
| 基准情景 | 市场维持30-40% CAGR,国产化率稳步提升至70%,闲置率改善至50%,英伟达市场份额继续萎缩 | 5-8家 |
| 乐观情景 | 市场维持50%+ CAGR,国产化率推至90%,生态成熟,国产芯片”好用”成为共识 | 8-12家 |
当前(2026年中)最接近基准情景。按照这个情景推演:
| 梯队 | 厂商 | 2029年预计营收(估) | 生存概率 |
|---|---|---|---|
| 第一梯队(必然存活) | 华为昇腾、海光DCU、寒武纪 | 100-500亿元+ | >95% |
| 第二梯队(大概率存活) | 昆仑芯、平头哥、摩尔线程、沐曦 | 50-150亿元 | 70-90% |
| 第三梯队(有希望但需努力) | 壁仞科技、天数智芯、燧原科技 | 30-80亿元 | 50-70% |
| 第四梯队(生死线挣扎) | 景嘉微(AI方向)、瀚博、登临、芯动 | 10-30亿元 | 20-40% |
| 第五梯队(高危) | 砺算、象帝先、芯瞳、其他边缘厂商 | <10亿元 | <20% |
核心判断:智算中心需求的大盘子,在3-5年内大概率只能支撑 5-8家 非华为系的国产GPU/AI芯片厂商实现规模化盈利。目前赛道上有20+家活跃玩家——这意味着至少一半以上将在淘汰赛中出局。
智算中心的采购方可以分为三类,每一类决定了不同的”生存逻辑”:
| 客户类型 | 采购逻辑 | 受益厂商 | 市场占比(估) |
|---|---|---|---|
| 运营商(移动/电信/联通) | 国产化率优先,大厂集采模式 | 华为昇腾、昆仑芯、寒武纪 | ~35% |
| 政府/国资智算中心 | 国产化率+政策合规,华为生态主导 | 华为昇腾、海光DCU | ~30% |
| 互联网大厂(字节/阿里/腾讯等) | 性能优先+供应链安全,自研倾向明显 | 平头哥(阿里自用)、昆仑芯(百度自用)、寒武纪、沐曦 | ~25% |
| 行业/企业自建 | 性价比+应用适配,碎片化需求 | 摩尔线程、天数智芯、燧原等 | ~10% |
数据的残酷性在于:运营商+政府占了约65%的采购量,而这两个市场的核心逻辑是”华为优先”。 中国移动2024年AI服务器集采191亿元,华为生态企业(昆仑技术、华鲲振宇、宝德等)合计中标超70% [41];中国移动2025-2026年推理型集采中,昆仑芯在三个标包全部排名第一,中标规模达十亿级 [42]。
这意味着:如果你不是华为生态的一部分,也不是昆仑芯(百度),运营商和政府智算中心的大门基本关了一大半。 留给独立GPU创业公司的,主要是互联网大厂(25%)和行业企业(10%)的碎片化市场——合计约35%的份额,还要和英伟达竞争。
| 核心判断 | 具体内容 |
|---|---|
| 市场总量够大 | 2025年国产AI芯片市场~1160亿元,2029年可能达1.34万亿元 |
| 但集中度极高 | 华为一家占64%,前5大占85% |
| 剩余蛋糕不足以养活所有人 | 非华为系厂商分食~175亿元,但盈亏平衡线是20-30亿元/家 |
| 政策在做大蛋糕 | 2027年国产化率70%+的要求将显著扩大市场 |
| 但闲置率是”黑洞” | 卡买回去了用不起来,国产化率只是账面数字 |
| 最终能活下来的 | 基准情景下5-8家非华为系厂商,乐观情景8-12家 |
| 淘汰赛已经开始 | 20+家活跃厂商中,至少一半将出局 |
最后,一个值得深思的类比:全球GPU市场,真正赚大钱的只有英伟达一家(2025年数据中心收入超1000亿美元),AMD在苦苦追赶,Intel则基本退出。即便在一个万亿级市场,赢家通吃的规律依然成立。中国因为有政策保护、信创壁垒、国产替代刚需,可能会比全球市场多容纳几家——但不可能多容纳几十家。
从资本、技术、客户、供应链四个维度推演整合路径
核心洞察:如果把国产GPU/AI加速器赛道比作一场”饥饿游戏”,资本是”粮草”、技术是”兵器”、客户是”阵地”、供应链是”后勤线”——2026年,当四维压力同时收紧,整合不再是”选项”,而是”宿命”。当前行业约20余家主流GPU/AI芯片设计企业中,3-5年后能够独立存活的很可能不超过5-7家。这不是危言耸听,而是全球半导体产业发展史的必然规律——GPU行业从来不是”百花齐放”的赛道,而是”赢家通吃”的寡头游戏。
在展开分析之前,先看一张”压力表”——四个维度各自施加的整合推力:
| 维度 | 核心压力 | 整合推力 | 紧迫程度 | 关键信号 |
|---|---|---|---|---|
| 资本 | 上市窗口关闭+估值分化+盈利预期落空 | 资本向头部集中,尾部”断粮” | ⭐⭐⭐⭐⭐ | 2025-2026 Q1融资68起/270亿元,但集中于前5家 |
| 技术 | 同质化竞争+路线收敛+软件生态壁垒 | 技术路线”赢家通吃”,低效重复投入被淘汰 | ⭐⭐⭐⭐ | 全功能GPU vs AI ASIC路线已现分化 |
| 客户 | 云厂自研芯片+迁移成本高+客户集中度高 | 客户向”能用、好用、不贵”三家集中 | ⭐⭐⭐⭐⭐ | 华为昇腾占40%份额,互联网厂自研加速 |
| 供应链 | 先进制程产能稀缺+地缘政治+晶圆涨价 | 产能向出货量大的头部集中,小厂”无片可流” | ⭐⭐⭐⭐⭐ | 中芯国际7nm产能被头部5家包圆 |
四维压力的叠加效应:单独看每个维度,头部厂商都还能勉力应付;但四个维度同时挤压时,尾部厂商面临的不是”选择性困难”,而是”系统性崩溃”——没钱流片→没产品→没客户→没收入→更没钱流片,这个死亡螺旋一旦启动,3-6个月内即可终结一家企业。
2023-2025年是国产GPU的”融资黄金期”:全行业融资额超500亿元,头部企业单次融资规模突破50亿元[63975]。2025年底至2026年初,更是在一个多月内密集完成4家上市(摩尔线程科创板、沐曦科创板、壁仞科技港股、天数智芯港股),堪称”国产GPU上市闪电战”[63957]。
但这恰恰是资本整合的起点而非终点。原因有三:
第一,IPO窗口具有时效性。摩尔线程上市首日涨幅425%,沐曦首日暴涨568%,壁仞科技港股首日涨幅75.82%——这些”首日神话”是建立在市场”AI算力稀缺标的”预期之上的[64048]。但随着供给增加(已上市6家+燧原科技IPO过会+昆仑芯冲刺港股+瀚博半导体辅导),“稀缺性溢价”正在消退。2026年5月,国产GPU相关上市公司市值已较峰值回调超35%[64019]。
第二,上市不等于安全。摩尔线程2022-2024年累计亏损约52亿元,沐曦累计亏损32.9亿元,壁仞2025年上半年亏损16.01亿元,天数智芯三年半累亏28亿元[63984]。这些公司上市募资80亿元、42亿元、37亿港元不等,按当前烧钱速度,资金仅够支撑2-3年[64023]。如果2027年前无法实现规模化盈利,将面临二次融资压力——彼时市场情绪可能已大不相同。
第三,估值分化已经开始。上市前,摩尔线程估值255亿元、沐曦210亿元、壁仞140-155亿元、天数智芯120亿元[64002]。上市后,市值差距进一步拉大——摩尔线程峰值市值一度超4000亿元,而天数智芯港股上市时市值约354亿港元[64160]。这种分化意味着:头部企业可以用高估值”换股并购”吞并尾部企业,而尾部企业即使想融资也面临”估值倒挂”困境。
| 整合路径 | 典型案例 | 核心逻辑 | 预判概率 |
|---|---|---|---|
| 上市企业横向并购 | 海光信息吸收合并中科曙光(虽终止但方向明确) | 芯片+系统整机纵向整合,追求”芯片到算力”闭环 | 🔴 极高 |
| 传统产业跨界收购 | 大胜达5.5亿元入股芯瞳半导体 | 传统企业寻求转型,GPU企业寻求”卖身” | 🟡 中等 |
| 大厂收编 | 字节跳动/阿里/腾讯收购独立GPU企业 | 云厂商自研芯片的”加速器” | 🟡 中等 |
海光信息-中科曙光合并案(2025年5月-12月)是国产算力领域最具标志性的整合事件。这笔交易金额约1159.67亿元,是证监会”并购六条”落地后的首单上市公司间吸收合并[64167]。虽然最终因”市场环境较交易筹划之初发生较大变化”而终止,但其揭示的底层逻辑并未改变——芯片企业需要整机系统能力来验证产品,系统企业需要芯片能力来降低成本。海光信息总经理沙超群在终止合并后仍表示”双方仍将保持算力全链条协同发展”[64163]。可以预见,这一级别的整合将以某种形式在未来重新出现。
大胜达收购芯瞳半导体(2026年3月)则代表了另一种整合范式——传统行业上市公司跨界”捡漏”。大胜达(包装纸企业)以5.5亿元取得芯瞳半导体22.98%股权,标的估值从11.6亿元(老股转让)跳升至20亿元(增资),对赌条款触发条件为”芯瞳第三代GPU GB3000流片成功”[64055]。这笔交易暴露了芯瞳的困境:净资产为负,2025年营收仅5000万元,第三代GPU尚未流片,同业普遍已到三代量产[64056]。传统企业跨界收购的”救援式整合”能否成功,取决于被收购方的技术实力是否真的被低估,以及收购方是否有能力持续投入——目前来看,风险极高。
2026年是”资本筛选”元年。上市企业将面临”业绩兑现”压力,未上市企业将面临”融资断流”压力。行业将从”资本驱动研发”进入”收入驱动研发”阶段。中邮证券首席经济学家黄付生的判断一针见血:“2026年资本会更看重中国科技股在产品端、应用端的实际推出和落地情况。预计科技股会出现急剧分化,2025年那种’概念普涨’的定价逻辑难以持续。“[64010]
核心推论:已上市6家(寒武纪+海光+摩尔线程+沐曦+壁仞+天数智芯)构成”第一融资圈”,拥有相对充裕的资金储备;燧原科技(IPO过会)+昆仑芯(冲刺港股)构成”第二融资圈”,窗口期仍在但紧迫;其余10余家未上市企业构成”融资困难户”,部分企业已出现”断炊”近两年的情况[64007]。资本整合的底层逻辑是:钱会向能证明商业化能力的企业集中,而不是向技术参数最漂亮的企业集中。
如果仔细审视国产GPU/AI加速器赛道,一个令人不安的事实浮现:在产品层面,绝大多数厂商集中在极其相似的AI推理赛道。根据Bernstein Research 2025年数据,华为昇腾(102.68亿美元)和英伟达(101.98亿美元)合计占据中国AI加速器市场约80%份额,剩余约20%由寒武纪(9.99亿美元,4%)、海光(11.18亿美元,4%)、平头哥、昆仑芯等十余家厂商瓜分[64184]。
“四小龙”(摩尔线程、沐曦、壁仞、燧原)加上天数智芯、瀚博、登临等,在AI训练/推理这一狭小赛道上形成”千军万马过独木桥”之势。而它们的核心产品——7nm制程、对标A100/H100的AI加速卡——在性能参数上呈现高度趋同。这种”同质化竞争”的后果是:客户选择芯片的标准从”谁更强”变成了”谁更便宜+谁的服务更好”,价格战不可避免。
壁仞科技2025年上半年毛利率已下降至31.9%,显示出价格竞争压力[64012]。当全行业都生产”类似A100”的产品时,唯一的差异化来自软件生态和客户服务——而这两项恰恰是烧钱最多、见效最慢的。
从技术路线的演进来看,整合存在一个清晰的”漏斗”:
全功能GPU(摩尔线程、沐曦弱化版、景嘉微)
/
AI专用加速器 ──────────┼── CUDA兼容策略(横跨多条硬件路线)
\
RISC-V GPU IP(芯动科技、芯原股份)
↓ 路线收敛方向 ↓
┌──────────────────────────────────┐
│ 未来3-5年存活路线: │
│ 1. 全功能GPU(1-2家) │
│ 2. AI训练专用(1-2家) │
│ 3. AI推理专用(1-2家) │
│ 4. 图形GPU(信创/军用,1-2家) │
│ 5. GPU IP授权(1家) │
└──────────────────────────────────┘
关键判断:技术路线收敛本身就是整合。当市场证明”全功能GPU路线”(摩尔线程2026Q1盈利)和”AI专用加速器路线”(华为昇腾大规模出货)都能跑通时,夹在中间的”模糊路线”厂商——想做图形但没做出来、想做训练但性能不够、想做推理但成本不占优——将最先被淘汰。技术整合的底层逻辑是:市场不需要20家”70分的A100替代品”,需要的是2-3家”90分的产品”加上完整的软件生态。
英伟达CUDA生态经过十余年发展,已积累超400万开发者——而国产GPU的软件生态适配率平均不足40%[64226]。这个差距在短期内无法靠”砸钱”弥合,但可以通过”整合”加速。
逻辑在于:软件生态建设具有强烈的”规模效应”。一个开发者社区需要足够的装机量来吸引开发者,而足够的开发者又能产出更多的适配应用来吸引客户——这是一个”鸡生蛋、蛋生鸡”的循环。如果20家厂商各自建设独立的软件栈(20套自研框架+20套算子库+20套调试工具),每个生态的开发者可能只有几百人,生态永远长不大。但如果行业整合为3-5家,每家装机量达到数十万张,开发者社区规模有望达到数万人级别,生态建设才有望进入正循环。
这就是为什么”国产统一生态”虽然美好但难以实现——因为统一生态的前提是 先有硬件市场的集中。在硬件市场仍然碎片化的阶段,任何”统一生态”的倡议都缺乏执行力。
国产GPU的客户结构呈现一个”金字塔”形态:
| 客户层级 | 典型客户 | 采购逻辑 | 国产GPU渗透率 | 整合影响 |
|---|---|---|---|---|
| 顶层:云大厂自研 | 阿里(平头哥)、百度(昆仑芯)、华为(昇腾)、字节(寒武纪部署) | “自研芯片+云服务”闭环 | 极高(自用) | 独立GPU厂商被排除 |
| 中层:互联网大厂外采 | 腾讯、字节(非自研部分)、美团、快手 | 推理优先,训练仍用英伟达 | 中等(20-30%) | 最多选2-3家供应商 |
| 底层:政企/运营商/信创 | 三大运营商、政府智算中心、金融/能源国企 | 政策驱动+性价比 | 高(政策要求) | 分散采购,但趋向集中 |
最致命的威胁来自顶层:云大厂正在加速自研。根据IDC、弗若斯特沙利文数据,中国AI公有云服务市场80%以上份额被阿里、百度、腾讯、华为、字节等大厂占据[63954]。而这些大厂几乎都在加速自研AI芯片。腾讯副总裁邱跃鹏2025年9月表态:“今天我们的GPU计算资源越来越异构,很多国产芯片在不断提升计算性能。“[63996]——这话的另一面是:腾讯在”兼容”国产芯片,但并没有大规模采购某一家独立GPU厂商的产品。
一位大厂战略研究分析师直言:“我觉得国产GPU最大的威胁不是英伟达,是云厂商自研的ASIC芯片。“[64040] 当最大的潜在客户群体正在变成竞争对手时,独立GPU企业的市场空间被结构性压缩。
有一个反直觉的事实:国产GPU的客户黏性可能比想象中更低。
摩尔线程的招股书数据揭示了一个隐忧:其营收主要靠新”大单”支撑,客户”续费”率不高[64199]。这说明客户在首次采购国产GPU后,并未形成”惯性复购”——这与英伟达客户(一旦部署CUDA生态,几乎终身绑定)形成鲜明对比。
原因在于:国产GPU的软件生态尚未形成”锁定效应”。客户今年采购A厂商的芯片,明年完全可以切换到B厂商——因为迁移成本都很高,没有哪家能提供”零成本迁移”。这意味着 客户忠诚度建立在”产品性能+服务+价格”的综合竞争力上,而非生态锁定。一旦某家厂商产品迭代落后或服务跟不上,客户可以迅速切换——而这对厂商的持续投入能力提出了极高要求。
客户整合的底层逻辑是”三选一”:对于大多数互联网和政企客户而言,他们只愿意在1-2家国产GPU供应商上投入适配资源。多一家供应商意味着多一套软件栈、多一套运维流程、多一个团队培训——这些隐性成本远超硬件采购成本。因此,客户会主动”投票”——将订单集中到他们认为”最有可能长期存活”的1-2家供应商。这种”客户驱动的整合”比资本驱动的整合更残酷,因为它是基于”生存预期”的自我实现预言:客户认为谁会赢,谁就更可能赢。
国产GPU面临的最硬性约束是 先进制程产能。当前,国产GPU主要采用7nm工艺,而中国的7nm产能几乎全部依赖中芯国际[64066]。中芯国际7nm产能2025年约为每月4万片(12英寸等效),但需要分配给海光、寒武纪、华为、壁仞、沐曦、摩尔线程等十余家GPU/AI芯片厂商,以及大量手机AP、汽车芯片等客户[63995]。
按每片晶圆可切割约60-80颗GPU芯片(假设芯片面积~400mm²),月产能4万片对应月产量240-320万颗——看似充裕,但考虑到良率(中芯国际7nm约90%)、产能分配优先级(手机AP厂商出货量更大、议价能力更强)、以及部分产能用于非GPU产品,实际分配给国产GPU厂商的产能可能仅够支撑头部5-6家。
产能分配的逻辑是残酷的:晶圆代工厂倾向于将产能分配给”量大、价高、稳定”的客户。具体而言:
沐曦在招股书中披露:其下一代曦云C700系列将”基于国产供应链打造”[64097]。这不仅是技术选择,更是生存策略——在台积电对华供应受限的背景下,能够跑通”国产EDA+国产IP+国产代工+国产封装”全栈供应链的企业,才有资格谈”长期主义”。
国产供应链的进展:
但”全栈国产化”并非一蹴而就。芯瞳半导体的案例揭示了小厂商的困境:7nm流片单次成本约3000-5000万元,中芯国际7nm良率对新设计首次流片通常<30%[64047]。一次流片失败可能意味着数千万打水漂+6个月时间损失——这对资金紧张的小厂商是致命打击。
供应链整合的底层逻辑是”产能投票”:中芯国际等代工厂的产能分配本身就是一种”产业筛选”——只有能够持续大规模下单、预付高比例货款的厂商,才能获得稳定的先进制程产能。沐曦招股书披露其前五大供应商采购占比超90%,且为保障供应向晶圆/HBM供应商提前订货并预付高比例货款[63987]。这种”预付锁定产能”的模式,意味着 供应链本身就是一座”付费墙”——资金实力不足的厂商根本进不了先进制程的门槛。
更深远的影响:当国产供应链(中芯国际+华虹)逐步成熟,台积电的”卡脖子”效应减弱后,行业将从”谁能拿到台积电产能”的竞争,转向”谁能在国产供应链上实现最优性价比”的竞争。这一转变将加速淘汰那些依赖台积电但无法转向国产供应链的厂商。
四个维度的整合压力并非独立运作,而是存在强烈的”共振效应”:
资本收紧
↓
┌─────────────────────────┐
│ 尾部厂商融资困难 │
│ → 无法预付晶圆产能 │
│ → 产品迭代延迟 │
│ → 客户流失 │
│ → 收入下降 │
│ → 更难融资 ←────────────┐│
└─────────────────────────┘│
↑ │
供应链排挤 │
↑ │
客户集中 │
↑ │
技术同质化 │
└───────────────┘
这个”死亡螺旋”一旦启动,3-6个月内即可终结一家中小GPU企业。而2027-2028年将是关键窗口期——届时,目前的头部厂商首批IPO资金将消耗过半,行业将进入”二次筛选”阶段:
基于以上四维分析,国产GPU/AI加速器赛道的最终格局可能呈现为:
| 层级 | 预计存活企业 | 核心逻辑 | 预估市场份额 |
|---|---|---|---|
| 第一梯队(平台型) | 华为昇腾、海光信息 | 昇腾凭生态+出货量;海光凭x86兼容+DCU+中科院体系 | 50-60% |
| 第二梯队(头部独立) | 摩尔线程、寒武纪 | 摩尔线程全功能GPU+盈利拐点;寒武纪AI芯片+互联网客户 | 20-25% |
| 第三梯队(利基玩家) | 沐曦、景嘉微、芯原股份 | 沐曦训练+国产供应链;景嘉微军用+信创图形;芯原GPU IP | 10-15% |
| 被并购/退出 | 壁仞、天数智芯、燧原、昆仑芯、瀚博、登临、砺算、芯动、象帝先等 | 单点技术强但商业闭环不完整,或成为大厂收购标的 | 5-10% |
关键判断:行业不会走向”一家独大”(政策不允许),也不会长期维持”百花齐放”(经济规律不允许),而是走向”3+3+N”格局——3家平台型(华为、海光、1家待定)+3家头部独立(摩尔线程、寒武纪、1家待定)+N家利基玩家。这个格局将在2028-2029年基本定型。
整合的终极逻辑:半导体行业的发展史反复证明,GPU赛道从来不是”创意竞争”的赛道,而是”规模竞争”的赛道。从NVIDIA收购3dfx(2000年)、AMD收购ATI(2006年)、Intel退出独立GPU(2022年重返但步履维艰),到中国市场的”春秋战国”走向”寡头整合”——历史不会重复,但会押韵。国产GPU行业整合的底层逻辑,归根结底是:一个国家不需要20家GPU公司,就像不需要20家CPU公司一样。 整合不是”失败”,而是产业成熟的标志。
必须指出,整合并非万能药。以下风险值得警惕:
估值错配风险:海光信息-中科曙光合并终止的核心原因之一就是”估值体系错位”[64132]。当买方市值高、卖方市值低时,换股比例难以达成一致。2025年11-12月,国科微、帝奥微、海光信息、芯原股份等6家半导体企业密集终止收购案,估值错配是主因之一[64132]。
整合后协同风险:半导体行业并购的失败率高达50%以上。技术路线不同、团队文化冲突、客户重叠——任何一项都可能导致整合失败。有媒体统计,2024年55只退市股中约三成在过去十年内曾开展跨界并购或借壳上市[64139]。
“大而不强”风险:并购可能带来规模效应,但未必能解决核心技术短板。如果整合只是把几家”70分的A100替代品”合并成一家”70分的A100替代品”,整合没有创造价值。
政策不确定性:反垄断审查、证监会注册审批、跨境并购的监管障碍——任何一个环节出问题都可能叫停交易。海光信息-中科曙光的千亿合并就是前车之鉴。
本节基于截至2026年6月的公开信息撰写。所涉公司财务状况、产品进展、并购动态等均引用自公开披露文件,部分前瞻性判断基于合理推演,不构成投资建议。
给出综合评估后的前10家厂商及入选理由
遴选方法论说明:本观察名单基于截至2026年6月18日的公开信息,从芯片架构能力、工程实现能力、软件栈成熟度、商业化规模、客户质量、资本认可度、供应链安全性、未来成长性八个维度进行综合加权评估。排名并非简单的“技术最强”或“营收最高”,而是面向产业投资人、智算中心建设方、AI大模型企业的 综合投资价值与战略卡位 排序。以下为详细排名及入选理由。
| 排名 | 公司 | 核心标签 | 2025年营收/出货 | 上市状态 | 一句话入选理由 |
|---|---|---|---|---|---|
| 1 | 华为昇腾 | 国产AI算力“一超” | 出货81.2万张,国产份额~50% [66740] | 未单独上市(华为体系内) | 出货量、生态、客户、政企关系、系统级能力全面断层领先 |
| 2 | 海光DCU | 唯一x86+GPGPU双轮驱动 | 143.77亿元(含CPU),DCU占比~35%+ [64250] | 科创板上市(688041) | 营收最高、类CUDA生态最成熟、信创+AI双受益 |
| 3 | 阿里平头哥真武 | 互联网大厂“自研核弹” | 累计出货56万片,年化营收超百亿 [66826] | 拟分拆独立上市 | 阿里云生态加持、千问大模型深度耦合、外部客户超400家 |
| 4 | 寒武纪 | AI芯片“二级市场之王” | 64.97亿元,首次全年盈利20.59亿元 [64345] | 科创板上市(688256) | 营收爆发453%、思元590放量、互联网大厂渗透率超40% |
| 5 | 百度昆仑芯 | 运营商集采“破局者” | 预计35-50亿元,出货13万片 [65791] | 提交港交所+A股辅导 | 万卡/三万卡集群点亮、中国移动十亿级订单、外部收入首超内部 |
| 6 | 摩尔线程 | “国产GPU第一股” | 15.05亿元,毛利率~70% [64775] | 科创板上市(688795) | 唯一全功能GPU路线、花港架构、MUSA生态、消费级布局 |
| 7 | 沐曦 | CUDA兼容“最激进派” | 16.44亿元,在手订单14.3亿元 [65528] | 科创板上市 | MXMACA兼容6000+CUDA应用、C600全流程国产供应链闭环 |
| 8 | 壁仞科技 | 制裁后“最强逆袭” | 10.35亿元,在手订单12.41亿元 [65015] | 港股上市(06082) | 从台积电断供到BR166量产、营收+207%、运营商千卡集群落地 |
| 9 | 天数智芯 | 训练+推理“双量产先驱” | 10.34亿元,累计出货5.2万片 [65354] | 港股上市(09903) | 字节跳动5万片采购洽谈中、推理业务+238%、340+客户 |
| 10 | 燧原科技 | 腾讯系“第四极” | 9.90亿元,S60累计出货超10万卡 [65435] | 科创板IPO过会(2026.6.15)[65614] | 邃思400量产、十万卡集群建设、四小龙中最后一家登陆资本市场 |
入选理由——“只要华为还在,它就是国产算力的默认选项。”
昇腾是当前中国国产AI芯片领域唯一的“超一线”选手,2025年出货81.2万张,占国产AI芯片总出货量近50%,按销售额计市场份额约40%,与英伟达在中国市场基本持平 [66740]。在20多个城市的智能计算中心中占据79%的市场份额,政企AI基础设施的“默认选项”地位稳固 [66749]。
核心优势:
核心短板:
架构师注:昇腾不是“一家公司”,它是华为整个ICT基础设施体系中的“算力心脏”。其他厂商是在和“一家公司”竞争,而昇腾是在和“一个生态体系”竞争——这本质上是不同维度的竞赛。
入选理由——“营收最高、生态最接近CUDA、信创+AI双轮驱动最稳。”
海光信息2025年营收143.77亿元(+56.92%),归母净利润25.45亿元,是国产GPU/AI加速器赛道中唯一营收突破百亿、持续稳定盈利的公司 [64250]。DCU产品收入占比已提升至35%以上,成为拉动营收高增的第二引擎 [66758]。
核心优势:
核心短板:
架构师注:海光是“最像AMD”的中国公司——这既是优势也是诅咒。优势在于生态兼容性碾压同类,诅咒在于核心技术路线受制于授权方。但在当前地缘政治环境下,“能用”比“自主”更紧迫,海光的务实路线反而最受政企客户青睐。
入选理由——“互联网大厂自研芯片的‘天花板’,出货量已超越寒武纪。”
真武系列PPU的崛起是2025-2026年国产AI芯片领域最大的“黑马事件”。截至2026年5月,真武系列累计出货56万片,2025年出货约26.5万片,在国内AI芯片厂商中跃居第二,首次在规模上超越寒武纪 [66826]。年化营收超百亿元,60%以上芯片服务于外部商业化客户 [66842]。
核心优势:
核心短板:
架构师注:平头哥是“含着金钥匙出生”的芯片公司——阿里云既是它的客户、也是它的试验场、更是它的销售渠道。这种“内部循环”模式在芯片验证期是巨大优势,但在大规模外拓时也可能成为包袱——客户会担心自己的数据跑在竞争对手的芯片上。平头哥能否真正“独立”,是其从“阿里内部工具”升级为“行业通用平台”的关键。
入选理由——“2025年营收爆发453%、首次全年盈利、AI芯片二级市场标杆。”
寒武纪2025年实现营收64.97亿元(+453.21%),归母净利润20.59亿元,上市以来首次全年盈利 [64345]。2026年Q1延续高增长,营收28.85亿元(+159.56%)[64537]。市值一度突破7000亿元,是A股AI芯片板块的“风向标” [64538]。
核心优势:
核心短板:
架构师注:寒武纪是国产AI芯片中“最像英伟达”的——不是技术路线像,而是资本市场给的估值像。它的问题在于:营收增速虽然惊人,但营收基数(2024年仅11.74亿元)和出货量(2.6万片)与市值(7000亿)之间的鸿沟,需要未来3-5年持续超高速增长来弥合。思元690能否顺利量产并打开局面,是验证这个估值逻辑的关键。
入选理由——“运营商集采‘破局者’、国产首个万卡集群、外部收入首超内部。”
昆仑芯P800在2025年点亮国内首个全自研万卡集群,随后进一步扩展至三万卡集群,为国产AI芯片单一集群规模天花板 [N65763]。2025年在中国移动AI推理集采中三个标包均排名第一(份额70%/70%/100%),订单规模达十亿级——这是国产AI芯片首次大规模走进运营商集采核心标段 [N65763][N65785]。
核心优势:
核心短板:
架构师注:昆仑芯的“中国移动大单”具有标志性意义——它证明了国产AI芯片可以在公开招标中凭实力(而非政策保护)获得运营商核心标段。如果昆仑芯能将这一模式复制到电信、金融等其他行业,它有可能成为“国产AI芯片的普惠版”——不是最顶尖性能,但性价比最高、部署最方便。
入选理由——“唯一全功能GPU路线、国产GPU第一股、消费级+数据中心双线布局。”
摩尔线程2025年12月登陆科创板,成为“国产GPU第一股”,上市首日市值约2822亿元 [64639]。2025年全年营收15.05亿元(+243.37%),毛利率攀升至约70% [64775]。
核心优势:
核心短板:
架构师注:摩尔线程是“最像英伟达”的中国公司——不是因为它已经做到了英伟达的水平,而是因为它的战略路径(全功能GPU+自有软件栈+消费级+数据中心)与英伟达最为相似。但“全功能”意味着“全都要烧钱”——图形、AI、HPC、视频编解码、消费级驱动,每一条线都需要数百人的团队持续投入。在英伟达每年投入几百亿美元研发的背景下,摩尔线程的80亿IPO募资能撑多久,是一个必须严肃回答的问题。
入选理由——“CUDA兼容最激进、C600全流程国产供应链闭环、营收增速121%。”
沐曦2025年营收16.44亿元(+121%),2025年12月科创板上市,首日市值超2700亿元 [65528]。在手订单14.3亿元(截至2025年9月),曦云C500系列为当前营收主力 [65496]。
核心优势:
核心短板:
架构师注:沐曦的“6000+ CUDA应用适配”是一把双刃剑——它意味着极低的迁移成本,但也意味着沐曦在技术上始终在“追赶”而非“定义”。C600的国产供应链闭环是其最大亮点,如果能在2026年上半年顺利量产并保持良率,沐曦将拥有其他依赖台积电的厂商不具备的供应链韧性。
入选理由——“制裁后最强逆袭,从BR100无法量产到BR166系列营收+207%。”
壁仞科技2022年发布的BR100(770亿晶体管、7nm Chiplet)曾是国产GPU的“技术巅峰”,但因美国制裁和台积电断供未能实现大规模量产 [64870]。公司迅速转向国产替代方案,BR106/BR116/BR166系列在2025年实现10.35亿元营收(+207%),毛利率53.8% [65015]。2026年1月港股上市 [64989]。
核心优势:
核心短板:
架构师注:壁仞是国产GPU赛道中最具“悲情英雄”色彩的公司——BR100本可以是国产GPU的里程碑,却被制裁扼杀在摇篮里。但壁仞团队的韧性值得尊敬:他们没有放弃,而是快速转向务实路线,用BR166重建商业化基础。BR20X系列能否让壁仞重回高端市场,是未来3年最值得关注的变量之一。
入选理由——“训练+推理双量产先驱、字节跳动5万片采购洽谈、累计出货5.2万片。”
天数智芯是中国首家实现“训练+推理”通用GPU双量产的芯片设计企业,截至2025年6月累计交付超5.2万片通用GPU产品,服务超340家客户 [65107]。2025年营收10.34亿元(+91.6%),推理业务收入同比增长238.2% [65354]。2026年1月港股上市 [65088]。
核心优势:
核心短板:
架构师注:天数智芯是“四小龙”中最务实的一家——不追求“全功能GPU”的宏大叙事,而是踏踏实实地把训练和推理芯片量产、交付、迭代。字节跳动的5万片采购如果落地,将是对天数智芯产品成熟度的最强背书。但路线图中“2027年超越Rubin”的表述,在先进制程受限的背景下,需要更多“如何做到”的细节来支撑。
入选理由——“邃思400量产、S60累计出货超10万卡、腾讯系‘第四极’、IPO过会。”
燧原科技2025年营收9.90亿元,2023-2025年营收复合增长率超80% [65632]。第四代邃思400芯片(L600训推一体模组)于2025年7月发布,原生支持FP8精度 [65458]。第三代S60推理卡累计出货超10万卡 [65474]。2026年6月15日科创板IPO过会,拟募资60亿元 [65614]。
核心优势:
核心短板:
架构师注:燧原科技是“四小龙”中最后一家登陆资本市场的,也是“腾讯依赖症”最明显的。83.79%的营收来自单一大股东客户,这在IPO审核中是一个巨大的红旗——监管必然会问:“如果没有腾讯,燧原还能独立生存吗?”燧原需要在上市后用募资的60亿元加速拓展非腾讯客户,否则“腾讯系芯片公司”的标签将长期压制其估值天花板。
| 公司 | 未入选原因 | 核心关注点 |
|---|---|---|
| 景嘉微(300474) | 营收7.20亿元,芯片独立销售收入仅约1.1-1.3亿元且同比下滑,主要靠军工显控模块拉动 [65698] | 唯一A股上市图形GPU标的,JM9系列在信创桌面GPU市占率约30%,JM11若放量可能改变格局 [65147] |
| 登临科技 | 营收数据未公开披露,商业化规模难以验证 | GPU+异构架构独特,KS系列云端推理卡适配MiniMax M2.5,港股IPO计划中(募资3-4亿美元)[66149] |
| 瀚博半导体 | 营收数据未公开披露 | 估值105亿元(胡润独角兽),SV100/SG100双代量产,云渲染+大模型推理双线,IPO辅导已完成 [10] |
| 象帝先 | 2024年濒临崩溃,2025年“复活”但营收未公开 | 伏羲A0(5nm/160TFLOPS/HBM2)是国产GPU中唯一量产的IMG DXD架构产品,技术路线独特 [66018] |
| 砺算科技 | 2025年营收仅2.48万元,尚未产生实质性收入 | 首款全自研6nm消费级GPU,对标RTX 4060,京东618首发,但商业化验证刚刚开始 [65893] |
| 芯动科技 | 营收数据未公开,风华3号刚发布尚未量产 | 风华2号在信创桌面市占率领先,风华3号性能参数亮眼(FP32 78 TFLOPS),但需量产验证 [66464] |
“一超多强”格局已定:华为昇腾作为“一超”,在出货量、生态、政企关系和系统级能力上断层领先;海光DCU、阿里平头哥、寒武纪、昆仑芯构成“四强”,分别在信创生态、互联网大厂自研、AI芯片独立上市、运营商集采四个维度形成差异化优势。
“四小龙”(摩尔线程、沐曦、壁仞、天数智芯)进入10亿营收俱乐部:2025年四家均突破10亿元营收大关,标志着国产GPU从“实验室产品”到“商品”的关键跨越。但“四小龙”之间的竞争才刚刚开始,2026-2027年将是淘汰赛的关键窗口。
互联网大厂“自研芯片”成为最大变量:阿里平头哥真武出货量已超越寒武纪,百度昆仑芯外部收入首超内部——互联网大厂的自研芯片已从“防御性布局”升级为“进攻性武器”。它们拥有“内部客户+场景验证+资金弹药”三重优势,对独立芯片公司的威胁不容小觑。
“图形GPU”和“AI加速器”的分化将加速:摩尔线程(全功能GPU)和景嘉微(图形GPU)是唯二在图形渲染领域有实质性投入和产品的公司,其余厂商本质上都是AI加速器公司。在信创桌面GPU替换需求爆发前,图形GPU路线的商业化回报可能长期低于AI加速器。
“TOP 10”名单的动态性:本名单基于截至2026年6月的公开信息,未来12-18个月内,以下变量可能改变排名——燧原科技IPO后非腾讯客户拓展速度、天数智芯字节跳动大单是否落地、壁仞科技BR20X能否回归高端、摩尔线程消费级显卡能否放量、阿里平头哥独立上市进程。这份名单不是“终局”,而是“赛程中段”的一次定格快照。
在国产GPU/AI加速器赛道中,有一类标的让投资人“又爱又怕”——它们在技术路线、产品迭代或市场卡位上展现出成为“中国英伟达”的潜力,但供应链脆弱性、客户集中度、持续亏损、治理结构等风险因素让它们随时可能从“明日之星”沦为“时代的眼泪”。本节聚焦这些“高赔率、高不确定性”的标的,逐一剖析其潜力来源与风险本质。
| 公司 | 潜力来源 | 核心风险 | 一句话概括 |
|---|---|---|---|
| 寒武纪 | 2025年营收65亿、扭亏为盈、思元590/690性能对标A100/H100 [1] | 49亿存货积压、客户集中度88.66%、中芯7nm良率瓶颈、字节自研芯片威胁 [1] | “最像英伟达”的公司,但产能恐慌和客户集中度像两把达摩克利斯之剑 |
| 壁仞科技 | BR100曾创全球算力记录、BR20X即将商业化、港股GPU第一股 [8] | 实体清单断供台积电、国产供应链悬而未决、BR20X能否量产是生死线 [12] | 技术底子最硬的“制裁幸存者”,BR20X的量产成败=企业的生死判决 |
| 摩尔线程 | 花港架构野心极大、华山/庐山2026量产、Q1首季盈利 [17] | 存货+预付款45.56亿、单一供应商预付款13.22亿、供应链集中度令人窒息 [19] | 国产GPU最像“全栈玩家”的选手,但财务杠杆之高令人揪心 |
| 沐曦 | 曦云C600对标H100、2026年盈亏平衡预期、科创板上市 [23] | 97%营收来自单一产品C500、客户名单年度换血、TSMC供应链暴露 [25] | “中国AMD”的技术底子,但商业模式的稳定性堪比走钢丝 |
| 砺算科技 | 唯一纯图形GPU创业公司、7G100已公开发售、与京东合作 [28] | 零营收、两度资金断链、估值从2亿到35亿的泡沫质疑 [31] | 最具“信仰充值”色彩的标的——要么成为中国版3dfx,要么成为下一个光荣的炮灰 |
| 象帝先 | 三连融资完成“死而复生”、第二代伏羲架构点亮、预研4nm神农芯片 [35] | 对赌失败前科、20余次法院被执行人、员工欠薪未了、IPO不确定 [34] | 国产GPU赛道最戏剧性的“复活赛”选手,但历史的伤疤不会轻易愈合 |
潜力面:为什么它是国产AI芯片的“天选之子”
寒武纪在2025年交出了一份令整个行业侧目的成绩单:全年营收64.97亿元,同比暴增453%,归母净利润20.59亿元,实现上市以来首次年度盈利 [1]。这不是渐进式增长,而是“范式转换”级别的爆发——背后是思元590芯片在AI推理和训练市场的大规模落地,其性能对标英伟达A100,在部分推理场景能效比甚至达到H100的1.8倍 [3]。
寒武纪的潜力来自三个“不可复制”的要素:
技术判断:寒武纪是中国最接近“AI芯片平台型公司”的选手——它有芯片(思元系列)、有框架(Cambricon Neuware)、有开发者生态(虽然远不如CUDA),这种“芯-框-用”三位一体的架构意识,是它区别于其他纯芯片设计公司的核心差异化。
风险面:三把悬在头顶的剑
第一把剑:49亿存货背后的产能恐慌
截至2025年底,寒武纪存货账面价值高达49.44亿元,同比激增178.67%,占公司总资产的36.79% [1]。更令人不安的是,2025年芯片库存量达85.7万片,而同期实际销售量仅11.7万片——产销比约1:7 [1]。公司解释为“战略性备货”,但行业观察者普遍认为,这反映的是中芯国际7nm”N+2”工艺良率仅约20%的残酷现实 [1]。
产能算术题令人窒息:中芯国际7nm月产能约2万片,华为昇腾独占1.5万片,留给寒武纪、摩尔线程、壁仞科技等一众厂商的仅5000片 [1]。这意味着寒武纪必须“抢跑式囤货”——在晶圆还没流片之前就大量预订产能,否则有单无货。
第二把剑:88.66%的客户集中度与字节跳动的“背刺”
2025年,寒武纪前五大客户贡献了88.66%的营收 [1]。市场普遍认为字节跳动是最大单一客户,部分机构推测字节贡献了寒武纪近80%的核心营收 [1]。但与此同时,字节跳动已组建超过1000人的自研AI芯片团队,其中AI芯片研发人员超500人,并且正在与三星电子洽谈先进制程代工合作 [1]。
这意味着寒武纪最大的客户,正在成为它最危险的竞争对手。一旦字节自研芯片成功,寒武纪不仅失去最大订单,还将面临一个“饿了么开始自己种菜”式的竞争格局。
第三把剑:研发投入断崖式下降
2025年,寒武纪研发投入占营收比重从2024年的91.3%骤降至18% [7]。同期2025年研发费用约11.7亿元,虽然绝对值仍在增长,但研发费用率的大幅下降引发市场对公司“吃老本”的担忧——在AI芯片这个“一代落后、代代落后”的赛道,降低研发强度无异于慢性自杀。
综合判断:寒武纪是国产AI芯片赛道中“如果成功,回报最大;如果失败,跌幅最深”的标的。2026年将是它的“压力测试年”——思元690能否量产、字节采购是否持续、中芯良率能否提升,三重变量叠加,任何一个方向的边际变化都可能引发估值剧烈波动。
潜力面:技术底子最硬的“通用GPU信仰者”
壁仞科技在2022年发布的BR100,至今仍是国产GPU芯片设计的“技术丰碑”:7nm制程,Chiplet双die设计,770亿晶体管(当时全球GPU最多),1074mm² die面积,FP32算力256 TFLOPS,INT8算力2 PFLOPS [8]。这个规格在当时直接对标甚至局部超越了英伟达A100,被业界称为“中国GPU设计能力的成人礼”。
2025年,壁仞营收突破10.35亿元(+207%),毛利率53.8%,2026年1月在港交所上市成为“港股GPU第一股”,募资约55.83亿港元(约7.17亿美元)[9]。更重要的是,其下一代旗舰BR20X计划于2026年商业化,采用第二代自研架构,全面支持FP8/FP4低精度计算,自研Blink 2.0互连协议支持千卡级集群纵向扩展,设计目标对标英伟达H200 [11]。
风险面:实体清单的“慢性窒息”
壁仞科技的核心风险,不是技术不行,而是 供应链被卡住了脖子。
2023年10月,壁仞科技及其13家子公司被美国商务部列入实体清单,台积电代工全面断供 [12]。原BR100/BR104采用台积电7nm 2.5D CoWoS封装,制裁后无法继续生产 [13]。公司被迫将BR100设计修改(Blink互连从8条减至7条),但最终仍无法在台积电生产,只能转向国产代工链 [13]。
此后,壁仞的主力产品变为BR106/BR106C/BR106M——这些是制裁后“降规”的简化版,性能远不如原版BR100。真正的“灵魂拷问”是:BR20X如果无法获得先进制程代工,是否也会沦为“纸面旗舰”?
公司2025年存货余额达9.49亿元,同比增长520.4% [14]——这同样反映出“抢产能”的焦虑。虽然壁仞通过Chiplet技术(BR166将两颗BR106裸晶合封)部分缓解了制程限制 [来源:产品描述],但Chiplet不是万能药:它需要先进封装(Interposer/CoWoS),而这同样受制于美国设备出口管制。
综合判断:壁仞就像一个“被绑住一只手的拳击手”——技术底子好,但供应链的镣铐让它的真实战斗力大打折扣。BR20X能否在国产供应链上量产并达到设计性能,是决定其命运的“终极一考”。如果可以,壁仞将是国产GPU最具竞争力的玩家之一;如果不行,它可能沦为“PPT芯片公司”的又一个注解。
潜力面:国产GPU最像“全栈玩家”的选手
摩尔线程是国产GPU厂商中,唯一同时覆盖 消费级显卡(MTT S80/S90)、AI智算卡(MTT S4000/S5000)、万卡集群(夸娥)、智能SoC(长江)、具身智能平台 五大产品线的公司 [15]。这种“全栈”定位让它在资本市场上获得了极高的估值溢价——2025年12月科创板上市,首日市值达约2822亿元 [16]。
2025年12月,摩尔线程发布第五代GPU架构“花港”,算力密度提升50%、能效提升10倍,支持FP4至FP64全精度计算和十万卡以上集群扩展 [17]。基于花港架构的两款芯片——AI训推一体“华山”和高性能图形渲染“庐山”——均计划2026年量产。其中庐山芯片宣称光线追踪性能提升50倍、3A游戏性能提升15倍,将完整支持DirectX 12 Ultimate [18]。
从技术路线图来看,摩尔线程是国产厂商中迭代节奏最清晰、覆盖面最广的——如果“花港”架构成功落地,它将成为中国唯一同时具备AI训练、AI推理、图形渲染、HPC四大能力的全功能GPU厂商。
风险面:资产负债表上的“定时炸弹”
然而,这份“全栈野心”的代价,写在资产负债表的“存货+预付款”科目里。
截至2026年一季度末,摩尔线程存货21.95亿元,预付款23.61亿元,合计45.56亿元 [19]。其中,对单一供应商的预付款高达13.22亿元,占预付款的74% [19]。这意味着,摩尔线程的供应链本质上已被“锁死”在单一供应商上——极大概率是中芯国际或某家晶圆代工厂。
这种“all-in”式的供应链策略,在产能紧缺期是护城河(锁定了产能),但一旦供应商出现任何问题(良率下降、产能被挤占、地缘政治断供),摩尔线程将面临“系统性崩溃”。
此外,摩尔线程虽然在2026年Q1实现了首次单季盈利(归母净利润2936万元),但2025年全年仍亏损约10亿元,公司预计最快2027年才能实现全年盈利 [20]。这意味着未来两年它仍将处于“烧钱换规模”的阶段,而45.56亿的存货+预付款意味着巨大的资金占用和跌价风险。
综合判断:摩尔线程的“花港”架构令人兴奋,但它的商业模式是“用高杠杆赌未来”——赌的是花港芯片2026年成功量产、赌的是万卡集群订单持续放量、赌的是单一供应商不出问题。这三个“赌注”中任何一个翻车,都可能引发连锁反应。对于认同摩尔线程技术愿景的投资者,需要做好承受“极端波动”的心理准备。
潜力面:技术基因最纯正的GPU团队
沐曦的核心团队平均拥有近20年高性能GPU产品端到端研发经验,曾主导过十多款世界级GPU产品从设计到量产的完整流程(从40nm到5nm制程)[22]。这种“从沙子到芯片”的完整经验,在国产GPU创业公司中极为稀缺。
旗舰产品曦云C600基于国产供应链和自研XCORE 1.5架构,搭载HBM3e显存(带宽超3.35TB/s),性能全面对标英伟达H100,预计2025年底风险量产、2026年上半年正式量产 [23]。公司预计最早于2026年达到盈亏平衡点 [24]。
风险面:商业模式的“三重单点故障”
第一重:单一产品依赖。 2024年及2025年Q1,曦云C500系列收入占主营业务收入比例分别为97.28%和97.87% [25]。一旦C500竞争力下降或C600量产延期,公司将面临“断崖式”收入下滑。
第二重:客户不稳定。 前五大客户名单年度变动剧烈:2023年的前五大客户在2024年全部消失;2024年前五大客户中仅一家进入2025年Q1名单 [26]。这种“客户年抛”现象意味着沐曦还没有建立起稳定的客户关系——每一个订单都是“一次性”的,需要持续不断寻找新客户。
第三重:供应链。 沐曦采用Fabless模式,7nm/5nm先进制程依赖台积电代工 [27]。在地缘政治加剧背景下,台积电断供风险始终存在。
综合判断:沐曦的团队技术实力毫无疑问是国产GPU第一梯队,但它的商业模式像“杂技演员走钢丝”——任何一个环节(产品、客户、供应链)出问题,都可能导致整体崩塌。C600在2026年能否成功量产并建立稳定的客户群,是决定沐曦是“中国AMD”还是“中国Transmeta”的分水岭。
潜力面:中国唯一专注图形渲染GPU的创业公司
在所有国产GPU创业公司中,砺算科技是定位最“纯粹”的——它不碰AI训练,不碰GPGPU,只做图形渲染GPU。首款产品7G100采用6nm制程,2025年5月回片、24小时内点亮,2026年3月正式面向公众发售Lisuan eXtreme系列显卡,已适配50余款专业应用、近百款游戏 [28]。
在国产GPU普遍“重AI、轻图形”的背景下,砺算的差异化定位反而形成了独特的稀缺价值——它是中国唯一可能填补“国产独立显卡”这一空白的企业。东芯股份(688110)累计投资约4.11亿元,持股约35.87% [29]。公司与京东达成消费级和企业级市场生态合作,并与某国内领先云计算服务商签署战略合作框架协议 [30]。
风险面:从“零到一”的死亡之谷
砺算科技2025年全年营收仅2.48万元,亏损4.45亿元 [31]。公司成立以来曾两度陷入资金断链危机,有7-8个月处于经营极度困难状态 [31]。估值从约2亿飙升至约35亿元,而营收为零——这种“零收入、高估值”的组合,在任何一个成熟市场都是“泡沫”的代名词 [32]。
技术判断:砺算的7G100从技术参数来看,性能大致对标NVIDIA GTX 1650/RTX 2050级别,属于入门级独立显卡。创始人宣以方自己也承认,英伟达CUDA生态护城河极深,适配是最大考验 [33]。但图形GPU的市场逻辑与AI芯片不同——它不需要打败CUDA,只需要在DirectX/Vulkan等标准图形API下跑得流畅。如果砺算能在2026年实现“月销万片”级别的出货,它将成为中国图形GPU的“破局者”;如果卖不动,估值可能迅速回调至10亿以下。
一句话总结:砺算科技是国产GPU赛道中最具“信仰充值”色彩的标的——要么成为中国版3dfx(曾经开创了消费级GPU时代),要么成为下一个“光荣的炮灰”。但无论如何,它的存在本身就证明了“中国有人在认真做图形GPU”这件事。
潜力面:三连融资完成的“复活赛”
象帝先的故事在国产GPU赛道中最为戏剧性:2024年8月因B轮融资对赌未达成5亿元目标,遭股东起诉、资金账户被冻结,召开全员会议宣布解散,400余人面临失业 [34]。然而,2024年12月宣布新一轮融资取得重大突破,2025年2月完成数亿元战略融资,2026年5月再获智路资本、钧鑫投资联合领投的新一轮融资,并签署改制上市财务顾问协议,计划2026年内完成股份制改造、全面加速IPO [35]。
产品层面,已完成天钧一号(盘古)、二号(盘古)、三号(伏羲)三款GPU芯片量产,伏羲A0性能接近英伟达RTX 2070/3050级别;预研的神农A0芯片规划4nm制程,计划2027年流片 [36]。
风险面:历史的伤疤不会轻易愈合
象帝先的“复活”确实令人惊叹,但以下风险让理性的投资者难以完全放心:
综合判断:象帝先的“复活”是国产GPU赛道韧性的体现,但从投资角度看,它需要证明的不只是“能活下去”,更是“为什么值得投资”。在摩尔线程、壁仞科技、沐曦等已上市公司的竞争下,象帝先的IPO窗口正在收窄。如果不能在2026年完成股改并交出有说服力的商业化成绩单,它可能再次面临“生死时速”。
| 风险维度 | 寒武纪 | 壁仞科技 | 摩尔线程 | 沐曦 | 砺算科技 | 象帝先 |
|---|---|---|---|---|---|---|
| 供应链风险 | 🔴极高 | 🔴极高 | 🔴极高 | 🟠高 | 🟡中 | 🟡中 |
| 客户集中度 | 🔴88.66% | 🟡中等 | 🟡中等 | 🔴88.35% | 🔴零客户 | 🟠高 |
| 持续亏损 | 🟢已盈利 | 🔴仍亏损 | 🟠Q1盈利 | 🔴仍亏损 | 🔴零收入 | 🔴未公开 |
| 产品单一性 | 🟡中等 | 🟡中等 | 🟢多元化 | 🔴97%单一 | 🔴100%单一 | 🟡中等 |
| 治理结构 | 🟢上市公司 | 🟢上市公司 | 🟢上市公司 | 🟢上市公司 | 🟠股东承压 | 🔴前科 |
| 制裁风险 | 🟠实体清单 | 🔴实体清单 | 🟠实体清单 | 🟡暂无 | 🟢暂无 | 🟢暂无 |
| 估值合理性 | 🔴PE 280x+ | 🟡合理 | 🟠偏高 | 🟠偏高 | 🔴零收入35亿 | 🟡未公开 |
“最有潜力但风险高的公司”这一类别,本质上是国产GPU赛道的“期权池”——它们中的某些可能在3-5年后成长为参天大树,另一些则可能被并购、边缘化甚至消失。投资者需要清醒认识到:
推荐值得长期关注的技术方向(如chiplet、光互联、存算一体等)
如果说国产 GPU 厂商的竞争是“明面上的牌局”,那么底层技术路线的演进则是“牌桌下的暗流”——它决定了哪些玩家能在下一轮洗牌中留在桌上,哪些会被无声淘汰。对投资者和产业决策者而言,跟踪厂商不如跟踪路线,因为路线是超越个别公司命运的、更长周期的确定性变量。
以下六条技术路线,按 确定性由高到低、时间周期由近到远 排列。在已有分析基础上,本节结合最新产业动态,对每条路线进行更新和深化。
一句话判断:在先进制程被“卡脖子”的背景下,Chiplet 是国产 GPU 实现算力跨越的“唯一可规模化的技术杠杆”。
台积电 3nm 以下先进制程对中国大陆关闭,SMIC 的 N+2(等效 7nm)是当前国产 GPU 的制程天花板。但 Chiplet 提供了“曲线救国”的路径:将大芯片拆分为多个小芯粒,用成熟制程组合出接近先进制程的性能。正如 AMD Instinct MI455X 用 12 个 2nm/3nm Chiplet 实现 3200 亿晶体管规模 [69013],国产厂商正在复制这一思路。2026 年,国产 AI 芯片正从“可用”迈向“好用”的关键阶段,Chiplet 是这一跨越的核心使能技术 [68997]。
| 厂商 | 产品 | Chiplet 方案 | 关键参数 |
|---|---|---|---|
| 壁仞科技 | BR100 | 2 颗计算 die + HBM2e,2.5D CoWoS-S | 770 亿晶体管,1074mm² [69070] |
| 华为昇腾 | 910C | 双 910B die + 有机基板桥接 | 530 亿晶体管,752 TFLOPS (BF16) [69051] |
| 寒武纪 | 思元 690 | 双 die 封装 + HBM3 | FP16 >700 TFLOPS,196GB HBM3 [69151] |
| 寒武纪 | 思元 370 | 2 颗 AI 计算芯粒 Chiplet 封装 | 国内首次 Chiplet 量产实践 [69160] |
其中,壁仞 BR100 是 国内首个采用 Chiplet + 2.5D CoWoS 封装的通用 GPU,2022 年发布时直接对标 NVIDIA H100 [69076]。华为昇腾 910C 的 Chiplet 方案更为务实——将两颗成熟 910B die 通过有机基板连接,技术难度低于 NVIDIA/AMD 的硅中介层方案,但具有更低的成本和更高的国产化率 [69052]。
Chiplet 成败的关键在于 Die-to-Die 互联。芯耀辉推出的 UCIe IP 在先进封装上支持 32Gbps 速率,标准封装支持 24Gbps,传输距离可达 50mm(远超 UCIe 标准协议的 25mm)[69127]。芯动科技率先推出国内首款兼容 UCIe 标准的 Chiplet 解决方案,已在先进工艺上量产验证成功 [69135]。合见工软也实现了国产首个跨工艺节点 UCIe IP 互连验证 [69133]。预计到 2026 年,D2D IP 市场有望达到 3.24 亿美元,2021–2026 年复合增长率可达 50% [69017]。
在封装侧,长电科技 XDFOI 平台可实现 2μm 线宽线距的有机重布线堆叠中介层,通富微电的 2.5D 封装已通过华为昇腾 910B 验证(2024 年国产替代订单增长 53%)[69193]。2026 年中国先进封装市场规模预计达 900–1000 亿元 [69197]。
Chiplet 路线的确定性极高,但国产 Chiplet 的真正挑战不是“能不能拼起来”,而是“拼起来之后的互联带宽和功耗是否足够”。华为 910C 的双 die 方案在芯片间互联带宽上可能低于 NVIDIA 的 NVLink-C2C 方案 [69052],这是 Chiplet 路线从“可用”到“好用”必须跨越的门槛。未来 3 年,能否从“有机基板桥接”走向“硅中介层+混合键合”的 3D 堆叠,将决定 Chiplet 路线的性能天花板。2026 年 UCIe 3.0 有望规模落地,64GT/s PHY 量产,国产 IP 在 AI 芯片中批量导入,这将是 Chiplet 路线成熟的关键里程碑 [69022]。
一句话判断:电互联正在成为万卡集群的瓶颈,光互联是唯一能打破这一瓶颈的技术——2026 年是 CPO 从 0 到 1 的元年。
万卡 GPU 集群中,卡间通信占用了 30%–50% 的训练时间。传统铜缆互联的功耗和延迟随带宽线性增长,早已不堪重负。CPO(共封装光学)将光引擎与交换芯片/GPU 封装在同一基板上,能效提升 3.5 倍,信号完整性提升 63 倍,系统可靠性提升 10 倍 [69034]。当 AI 从“偶尔调用”变成“持续驻留”,真正的瓶颈不再是“算不动”,而是“数据搬不动”——光互联正是解决这一瓶颈的底层技术 [69266]。
NVIDIA 在 2025 年 GTC 上发布了 Spectrum-X 和 Quantum-X 硅光网络交换机,采用 CPO 技术实现每端口 1.6Tb/s,计划 2026 年下半年供货 [69040]。NVIDIA 更在其 Rubin 架构中采用 CPO 技术突破 NVLink 限制 [69231]。Lumentum 订单爆满、Coherent 斩获头部客户大额 CPO 订单,CPO 需求已告别远期叙事,迎来确定性爆发拐点 [69042]。IDC 判断 2025–2026 年将是 CPO 试点部署的窗口期 [69037]。
在中国,CPO 落地可能比海外更快——因为国内 GPU 厂商都在寻求突破,更愿意尝试新技术路线 [69033]。华为、腾讯、阿里等大厂已在积极开展 CPO 设备储备和采购 [69226]。2026 年国内 1.6T 光模块将开始导入智算中心 [69043]。2024 年 9 月,国内实验室已成功将激光光源集成至硅基芯片内部,标志着国内在该项技术上取得了首次成功 [69048]。
更远期来看,OIO(Optical I/O,片上光互联)将光引擎直接封装到 GPU 芯片上,实现“GPU 直接输出光信号”。这将是比 CPO 更彻底的互联革命,但预计要到 2028+ 才能规模商用。NVIDIA 已计划 2025 年下半年推出的 GB300 平台率先部署 1.6T CPO 技术 [69235],CPO 的商业化进程正在加速。
CPO 的确定性很高,但国产厂商在 CPO 核心器件(硅光芯片、磷化铟激光器、微环调制器)上仍高度依赖进口。Coherent 计划在 2026 年底实现内部磷化铟产能翻番,但国产替代仍需时日 [69227]。真正的“自主可控光互联”还需要 3–5 年。不过,光互联是中国在互联技术上最有可能“换道超车”的方向——因为电互联的专利和生态壁垒极高,光互联的起跑线对所有人都是新的。正如业内所言,“国内相比海外竞争对手,在商业落地上更快” [69033]。
一句话判断:存算一体是理论上最能解决“数据搬运能耗”问题的架构,已写入“十五五”规划,但离大模型训练的大规模商用还有 3–5 年。
传统冯·诺依曼架构中,数据在计算单元和存储单元之间反复搬运,消耗了 90% 以上的能量。存算一体通过在存储器内部直接完成计算,理论上可实现 10 倍以上的能效比提升。量子位智库预测,2025 年存算一体市场规模将达 125 亿元,2030 年达 1136 亿元 [69095]。新华网 2026 年初的深度报道也明确指出“专用集成电路、存算一体等新架构”是中国 AI 算力突破的关键路径 [69008]。
| 路线 | 存储介质 | 代表厂商 | 最新进展 | 目标场景 |
|---|---|---|---|---|
| 数字存算一体 | SRAM | 后摩智能 | 鸿途 H30(256TOPS/35W)量产;漫界 M50(2025 Q4 量产)[69088] | 智能驾驶、边缘推理 |
| 数模混合存算一体 | ReRAM | 亿铸科技 | PoC 芯片点亮,2026 年推出量产 AI 算力卡 [68992] | 数据中心推理、边缘计算 |
后摩智能的鸿途 H30 是 国内首款量产落地的存算一体大算力芯片,已获得新石器无人车、环宇智行等超 55 家客户支持 [69096]。第二代漫界 M50 于 2025 年 Q4 量产 [69119]。清华大学微电子所研究员指出,“ReRAM 因其工艺相对成熟、与 CMOS 兼容性好,是目前商业化前景最明朗的存算一体技术路线之一” [69106]。
亿铸科技走的是 ReRAM 路线,2023 年点亮了基于 ReRAM 的高精度、低功耗存算一体 AI 大算力 PoC 芯片,“能效比和算力都超出预期” [69107]。计划 2026 年推出量产产品,据称基于 28nm 工艺即可实现 10 倍于传统架构的能效比 [69110]。2025 年新增了 30 项 ReRAM 相关专利 [69120]。
2025 年,存算一体技术被正式写入国家“十五五”规划前瞻研究,成为国家级重点技术方向 [68994]。头部科技公司正打造能兼容多种国产芯片的异构计算平台,存算一体是其中的重要组成部分 [69008]。
存算一体的能效比优势是真实的,但当前的瓶颈在于:① SRAM 路线容量有限,难以承载千亿参数大模型;② ReRAM 路线工艺成熟度不足,量产良率仍需验证;③ 软件生态几乎为零,开发者需要学习全新的编程范式。存算一体在 边缘推理和端侧 AI 场景中确定性最高(后摩智能已证明),在 数据中心训练 场景中确定性最低——至少需要 3–5 年才能看到实质性突破。这是一个“长线变量”,适合持续跟踪,不宜短期押注。ReRAM 技术“已经到了商业应用爆发前夜”,但量产产品的实际表现仍需观察 [69110]。
一句话判断:没有国产 HBM,所有国产 GPU 的显存带宽都将受制于人——这是国产 GPU 产业链中“最痛的一块短板”,也是最值得跟踪的突破方向。
大模型训练和推理中,显存带宽往往比算力更先成为瓶颈。英伟达 H100 的 HBM3 带宽达 3TB/s,而国产 GPU 目前主要依赖 GDDR6(带宽 ~512GB/s–1TB/s),差距巨大。部分高端产品(如壁仞 BR100、寒武纪思元 690)使用 HBM2e/HBM3,但 HBM 颗粒完全依赖进口(三星/SK 海力士/美光),受美国出口管制限制 [69025]。HBM 是国内 AI 发展的胜负手,目前国产化率基本为 0 [69171]。
| 厂商 | 技术节点 | 关键进展 | 预期量产时间 |
|---|---|---|---|
| 长鑫存储 (CXMT) | HBM3 | 已向华为交付 16nm HBM3 样品 [69173];良率超 80% [69178] | 2026 年初量产,2027 年 HBM3E [69165] |
| 长江存储 (YMTC) | HBM | 拟与长鑫存储合作开发 HBM [69166];武汉新芯 HBM 产线建设中 | 2026–2027 年小批量 [69177] |
长鑫存储的 HBM 进度是国产 GPU 产业链中最值得关注的单点事件。如果 2026 年 HBM3 顺利量产,华为昇腾、寒武纪、壁仞等厂商将获得“国产 HBM 自由”,极大缓解供应链风险。通富微电作为长鑫存储最重要的 HBM 封测合作伙伴,已具备 6 层、8 层 HBM 封测能力 [69175]。长鑫存储已突破 HBM3 技术,采用与 SK 海力士同源的 MR-MUF 封装技术,DRAM 市场份额从 3% 提升至 5%,预计 2027 年将达 10% [69178]。
国产 HBM 的突破是“时间问题”而非“可能性问题”,但时间窗口至关重要。长鑫存储的 HBM3 即使量产后,在带宽、功耗、良率上仍将落后 SK 海力士一代以上。但对中国 GPU 产业而言,“有”和“没有”的差距远大于“好”和“更好”的差距——HBM3 国产化意味着不再被“卡脖子”,这是质变。需清醒认识到,短期的样品供应不等于长期的产业竞争力,高端设备依赖、良率稳定性提升、生态协同不足等问题,仍是悬在头顶的“达摩克利斯之剑” [69178]。美国 2024 年 12 月的管制限制了 HBM 制造和封装的关键设备,且美国半导体设备公司驻长鑫的维护人员被要求离开,这将影响其 DRAM 和 HBM 开发进度 [69180]。
一句话判断:RISC-V 在 AI 加速器中的渗透率将快速增长,但短期内仍是“配角”——长期看可能成为打破 x86/ARM 双寡头的“第三极”。
RISC-V 的开放性和可定制性使其天然适合 AI 加速器中的控制核和协处理器。英伟达早在 2016 年就将 RISC-V 控制器用于 GPU 内部,2025 年更宣布正在推进 CUDA 向 RISC-V 架构的移植 [69224]。据预测,到 2030 年 RISC-V 在 AI 加速器中的占比有望突破 50%,用于 AI 加速器的 RISC-V SoC 出货量将达 41 亿颗 [69216]。
上海将 RISC-V 列为重点产业方向,2025 年提出“开源大模型 + 开源架构芯片”组合实现 AI 产业链自主可控 [69223]。业界认为,凭借“开源大模型+开源架构芯片”的组合,国内有望实现 AI 产业链自主可控。
RISC-V 在 AI 加速器中最有前景的角色不是“替代 GPU”,而是“替代 GPU 中的 ARM/x86 控制核”以及“边缘 AI 推理的轻量级 SoC”。短期内(3 年内),RISC-V 不会成为 AI 训练的主力架构;但长期看(5–10 年),RISC-V + 开源 AI 框架的组合有可能形成全新的技术栈,对 NVIDIA 的 CUDA 生态形成“绕道竞争”。这一路线的最大不确定性在于生态碎片化——RISC-V 的“自由”同时意味着“分散”,需要强有力的联盟或标准组织来统一。RISC-V 并行计算领航创新联盟的成立是一个积极信号,但生态建设仍需时间 [69208]。
一句话判断:CUDA 兼容路线是国产 GPU 商业化的“速效救心丸”,但不是“长治久安之策”——NVIDIA EULA 限制和性能损失是长期隐患。
摩尔线程的 MUSA/MUSIFY 是国产 CUDA 兼容路线的标杆:通过 MUSIFY 工具自动将 CUDA 代码转换为 MUSA 代码,解决 90% 以上的语法兼容问题 [69254]。但会有 10%–20% 的性能损失,且新算子适配滞后 [69261]。海光 DCU 的 ROCm 兼容路线同理——利用 AMD 开源的 ROCm 生态,通过 Hipify 工具实现 CUDA 代码迁移。
NVIDIA 已在 CUDA 11.6 EULA 中明确禁止以转译模拟方式兼容 CUDA [69245]。摩尔线程声明 MUSA/MUSIFY 与 CUDA 无依赖关系,不涉及 EULA 条款 [69264]。但这一法律风险的“灰色地带”始终存在。
CUDA 兼容路线是当前阶段国产 GPU 获取开发者最现实的路径——没有之一。但长期来看,这条路有三个致命局限:① 始终落后 NVIDIA 一代(先有 CUDA 新特性,再兼容);② 性能损失不可避免(翻译层开销);③ 法律风险悬而未决。真正值得跟踪的是 是否有一家国产厂商能构建出“超越兼容”的独立生态——华为 CANN 是目前最接近这个目标的,但它的“封闭性”又限制了生态扩散速度。很多国产厂商通过层层转译来兼容 PyTorch/CUDA 代码,虽能让客户快速上手,但长期依赖此路径难以形成真正的技术壁垒 [69263]。
| 技术路线 | 确定性 | 影响力 | 时间周期 | 核心跟踪标的 | 风险等级 |
|---|---|---|---|---|---|
| Chiplet + 先进封装 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 已落地–2028 | 壁仞/华为/寒武纪/长电/通富 | 低 |
| 光互联 CPO/OIO | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 2026–2030 | 中际旭创/光迅/华为光电 | 中 |
| 国产 HBM | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 2026–2028 | 长鑫存储/长江存储/通富 | 中 |
| 存算一体 | ⭐⭐⭐ | ⭐⭐⭐⭐ | 2026–2030 | 后摩智能/亿铸科技 | 高 |
| RISC-V AI 加速 | ⭐⭐⭐ | ⭐⭐⭐ | 2026–2032 | 奕斯伟/希姆计算/赛昉 | 高 |
| CUDA 兼容/替代 | ⭐⭐⭐ | ⭐⭐⭐⭐ | 已落地,长期存疑 | 摩尔线程/海光 DCU | 中 |
打分说明:确定性 = 技术成熟度 + 产业链配套 + 政策支持的综合判断;影响力 = 若成功对产业格局的颠覆程度;时间周期 = 从当前到规模商用的预期窗口。
最重要的一个判断:未来 3–5 年,中国 GPU 产业的竞争将从“单芯片性能竞赛”转向“系统级能力竞赛”——Chiplet 互联、光互联、HBM 带宽、软件栈这些“系统级能力”将比单一芯片的纸面算力更能决定胜负。这也是为什么跟踪技术路线比跟踪个别厂商更为重要。核心矛盾已从单一芯片的纸面参数竞争,转向万卡级集群的互联瓶颈突破,最终目标是提升模型算力利用率(MFU)[69003]。