根据 TrendForce 数据ღ★✿◈,基于 AI 服务器出货量增长率ღ★✿◈,预计到 2026 年ღ★✿◈,云服务提供商的定制出货量将增长 44.6%long8.唯一(中国)官方网站ღ★✿◈,而 GPU 出货量预计将增长 16.1%ღ★✿◈。这标志着 AI 硬件格局正在发生转变ღ★✿◈,因为超大规模数据中心运营商正加大对自研芯片的投资ღ★✿◈。
自 20 世纪 90 年代以来ღ★✿◈,NVIDIA 一直致力于为游戏行业设计图形处理器 (GPU)ღ★✿◈。NVIDIA 是一家无晶圆厂芯片制造商ღ★✿◈,其大部分芯片制造业务外包给台积电 (TSMC )ღ★✿◈。其主要业务包括ღ★✿◈:
该公司基于 Ampereღ★✿◈、Hopper 以及最新的 Blackwell 架构生产人工智能芯片ღ★✿◈。得益于 生成式人工智能的蓬勃发展ღ★✿◈,英伟达在过去几年取得了卓越的业绩ღ★✿◈,市值突破万亿美元ღ★✿◈,并巩固了其在 GPU 和人工智能硬件市场的领导地位ღ★✿◈。下图展示了英伟达在该领域的收入逐年增长情况long8.唯一(中国)官方网站ღ★✿◈,以及该领域如何成为公司的主要收入来源ღ★✿◈。
由于其数据中心产品的强大实力ღ★✿◈,NVIDIA 几乎垄断了云 AI 市场ღ★✿◈,大多数云服务提供商仅提供 NVIDIA GPU 作为云 GPUღ★✿◈。
NVIDIA 还推出了 DGX Cloud 产品HULUWA葫芦娃官网在线观看入口ღ★✿◈,直接向企业提供云 GPU 基础设施ღ★✿◈,绕过云服务提供商ღ★✿◈。
NVIDIA Dynamo 于 2025 年 GTC 大会上发布ღ★✿◈,是一款全新的开源推理框架ღ★✿◈,专为在分布式环境中高吞吐量ღ★✿◈、低延迟地部署生成式 AI 模型而设计HULUWA葫芦娃官网在线观看入口ღ★✿◈。如下图所示ღ★✿◈,在 NVIDIA Blackwell 平台上ღ★✿◈,请求处理速度最高可提升 30 倍ღ★✿◈。该框架兼容 PyTorch 和 TensorRT-LLM 等常用工具ღ★✿◈,并利用解耦推理阶段和动态 GPU 调度等创新技术来优化性能并降低成本ღ★✿◈。Dynamo 已在 GitHub 上发布供开发者使用ღ★✿◈,并集成到 NVIDIA NIM 微服务中ღ★✿◈,面向企业解决方案ღ★✿◈。Dynamo 能够支持从单 GPU 到多 GPU 系统的可扩展且经济高效的生成式 AI 服务ღ★✿◈。
AMD于2023年6月发布了面向AI训练工作负载的MI300处理器ღ★✿◈,并与NVIDIA争夺市场份额ღ★✿◈。由于生成式AI的兴起引发了需求的快速增长ღ★✿◈,导致NVIDIA的AI硬件难以采购ღ★✿◈,因此ღ★✿◈,一些初创公司ღ★✿◈、研究机构ღ★✿◈、企业和科技巨头在2023年纷纷采用了AMD的硬件ღ★✿◈。2025年ღ★✿◈,AMD宣布收购Untether AI旗下的AI硬件和软件工程师团队ღ★✿◈。Untether AI是一家为边缘计算提供商和企业数据中心开发节能型AI推理芯片的公司ღ★✿◈。此举增强了AMD的AI编译器ღ★✿◈、内核开发和芯片设计能力ღ★✿◈,进一步巩固了其在推理市场的地位ღ★✿◈。此外ღ★✿◈,AMD还收购了编译器初创公司Briumღ★✿◈,旨在优化其Instinct数据中心GPU在企业应用中的AI性能ღ★✿◈。
AMD MI350系列显卡取代MI300系列并与NVIDIA的H200系列展开竞争HULUWA葫芦娃官网在线观看入口ღ★✿◈。AMD 还与 Hugging Face 等机器学习公司合作HULUWA葫芦娃官网在线观看入口ღ★✿◈,帮助数据科学家更高效地利用其硬件ღ★✿◈。
软件生态系统至关重要ღ★✿◈,因为硬件性能很大程度上依赖于软件优化ღ★✿◈。例如ღ★✿◈,AMD 和 NVIDIA 曾就 H100 和 MI300 的基准测试公开争论ღ★✿◈。争论的焦点在于基准测试中使用的软件包和浮点运算类型ღ★✿◈。根据最新的基准测试结果ღ★✿◈,MI300 在 70B LLM 上的推理性能似乎优于或与 H100 持平ღ★✿◈。
虽然AMD的硬件正在赶上NVIDIAღ★✿◈,但其软件在易用性方面却落后于NVIDIAღ★✿◈。CUDA虽然开箱即用ღ★✿◈,可以满足大多数任务的需求ღ★✿◈,但AMD的软件却需要大量的配置ღ★✿◈。
英特尔是CPU市场上最重要的厂商ღ★✿◈,拥有悠久的半导体研发历史ღ★✿◈。与英伟达和AMD不同ღ★✿◈,英特尔使用自己的晶圆代工厂生产芯片ღ★✿◈。Gaudi3 是英特尔最新的 AI 加速处理器long8.唯一(中国)官方网站ღ★✿◈。然而ღ★✿◈,英特尔对 Gaudi3 在 2024 年的销售额预期约为 5 亿美元ღ★✿◈,这远低于 AMD 预计在 2024 年获得的数十亿美元的收入ღ★✿◈。
AWS生产用于模型训练的Tranium芯片和用于推理的Inferentia芯片ღ★✿◈。尽管AWS是公有云市场的领导者ღ★✿◈,但它是在谷歌之后才开始研发自己的芯片的long8.唯一(中国)官方网站ღ★✿◈。
谷歌推出了Ironwoodღ★✿◈。这一最新一代产品专为复杂的“思维模型”(例如LLM和MoE)而设计ღ★✿◈,提供大规模并行处理能力(每个芯片4,614 TFLOPs)ღ★✿◈,并且在9,216个芯片的集群中可扩展至42.5 Exaflopsღ★✿◈。
Ironwood 相较于 Trillium 实现了显著的提升ღ★✿◈,包括ღ★✿◈:能效提升 2 倍ღ★✿◈,高带宽内存容量提升 6 倍(192 GB/芯片)ღ★✿◈,HBM 带宽提升 4.5 倍(7.2 TB/s/芯片)ღ★✿◈,以及芯片间互连速度提升 1.5 倍(1.2 Tbps)HULUWA葫芦娃官网在线观看入口ღ★✿◈。它还配备了增强型 SparseCoreღ★✿◈,可支持大型嵌入式应用ღ★✿◈。此外ღ★✿◈,谷歌还生产尺寸更小的 Edge TPUღ★✿◈,以满足不同的应用需求ღ★✿◈,专为智能手机和物联网硬件等边缘设备而设计ღ★✿◈。
IBM于2022年发布了其最新的深度学习芯片——人工智能单元(AIU)ღ★✿◈。IBM正在考虑使用这些芯片来驱动其watson.x生成式人工智能平台ღ★✿◈。AIU 基于IBM Telum 处理器构建ღ★✿◈,该处理器为 IBM Z 大型机服务器提供 AI 处理能力ღ★✿◈。
Groq 由几位前谷歌员工创立ღ★✿◈。该公司主营LPU(低功耗模块)ღ★✿◈,这是一种新型人工智能芯片架构HULUWA葫芦娃官网在线观看入口ღ★✿◈,旨在帮助企业更轻松地部署其系统ღ★✿◈。这家初创公司已筹集约 3.5 亿美元资金ღ★✿◈,并推出了首批产品ღ★✿◈,例如 GroqChip 处理器和 GroqCard 加速器等ღ★✿◈。该公司专注于LLM推理并发布了Llama-2 70B的基准测试结果ღ★✿◈。
SambaNova Systems成立于2017年ღ★✿◈,致力于开发用于海量生成式人工智能工作负载的高性能ღ★✿◈、高精度软硬件系统ღ★✿◈。该公司已开发出SN40L芯片ღ★✿◈,并筹集了超过11亿美元的资金ღ★✿◈。值得注意的是ღ★✿◈,SambaNova Systems 也向企业出租其平台ღ★✿◈。SambaNova Systems 的AI 平台即服务模式使其系统更易于采用ღ★✿◈,并鼓励硬件重复利用ღ★✿◈,从而促进循环经济ღ★✿◈。
Cerebras成立于2015年ღ★✿◈,是唯一一家专注于晶圆级芯片的大型芯片制造商ღ★✿◈。与GPU相比ღ★✿◈,晶圆级芯片由于拥有更高的内存带宽ღ★✿◈,在并行处理方面具有优势ღ★✿◈。然而ღ★✿◈,此类芯片的设计和制造仍是一项新兴技术ღ★✿◈。
WSE-2 拥有 2.6 万亿个晶体管和 85 万个内核ღ★✿◈,于 2021 年 4 月发布ღ★✿◈。它采用了台积电的 7 纳米工艺ღ★✿◈。
Celebras 的系统与阿斯利康和葛兰素史克等制药公司以及依赖该系统进行模拟的研究实验室合作ღ★✿◈。此外ღ★✿◈,由于其芯片可以降低前沿模型的推理成本ღ★✿◈,因此也瞄准了生命周期模型(LLM) 制造商ღ★✿◈。
d-Matrix采用了一种新颖的方法ღ★✿◈,摒弃了传统的冯·诺依曼架构ღ★✿◈,转而采用内存计算ღ★✿◈。虽然这种方法有可能解决内存和计算之间的瓶颈问题ღ★✿◈,但它是一种全新的ღ★✿◈、尚未经过验证的方法ღ★✿◈。
一家总部位于韩国的初创公司在2024年融资1.24亿美元ღ★✿◈,专注于LLM推理ღ★✿◈。Rebellions与另一家韩国半导体设计公司SAPEON合并ღ★✿◈,2025年7月ღ★✿◈,Rebellions获得了来自科技巨头三星的投资ღ★✿◈,这是其计划进行首次公开募股(IPO)前一轮目标金额高达2亿美元的融资ღ★✿◈。该公司自2020年成立以来已筹集了2.2亿美元ღ★✿◈,并正与三星合作ღ★✿◈,计划于2025年晚些时候将第二代芯片Rebel-Quad(由四个Rebel AI芯片组成)推向市场ღ★✿◈,该芯片将采用三星的4纳米制程工艺进行制造ღ★✿◈。
Tenstorrent公司生产Wormhole芯片ღ★✿◈、面向研究人员的台式机以及搭载Wormhole芯片的服务器(例如Tenstorrent Galaxy)ღ★✿◈。该公司还提供其解决方案所需的软件栈ღ★✿◈。Tenstorrent于2024年12月从包括杰夫·贝佐斯在内的投资者那里筹集了7亿美元ღ★✿◈,估值超过26亿美元ღ★✿◈。
etched 的做法牺牲了灵活性以换取效率ღ★✿◈,将变压器架构直接烧录到芯片中ღ★✿◈。etched 声称已研制出全球首款变压器专用集成电路(ASIC)ღ★✿◈。
Extropic在2023年末完成了一轮1400万美元的融资ღ★✿◈,旨在利用热力学进行计算ღ★✿◈。该公司尚未发布芯片long8.唯一(中国)官方网站ღ★✿◈。
Vaire是一家总部位于英国的初创公司ღ★✿◈,致力于可逆计算的开拓性研究ღ★✿◈。可逆计算是一种旨在打造近零能耗芯片的创新方法ღ★✿◈。与传统计算中能量以热能形式散失不同ღ★✿◈,可逆计算能够回收利用相当一部分能量用于后续计算ღ★✿◈。
Vaire公司展示了一款能够回收50%能量的测试芯片ღ★✿◈,这表明该技术具有降低人工智能工作负载能耗并克服现代半导体制造面临的物理限制(即热墙)的潜力ღ★✿◈。
据报道ღ★✿◈,苹果公司的ACDC项目专注于研发用于人工智能推理的芯片ღ★✿◈。苹果公司本身已是一家主要的芯片设计公司ღ★✿◈,其自主设计的半导体被应用于iPhoneღ★✿◈、iPad和MacBook等产品中ღ★✿◈。
Meta 训练和推理加速器 (MTIA) 是一系列用于 AI 工作负载(例如训练 Meta 的 LLaMa 模型)的处理器ღ★✿◈。最新型号是下一代MTIAღ★✿◈,它基于台积电5nm工艺ღ★✿◈,据称性能比MTIA v1提升3倍ღ★✿◈。MTIA将安装在最多可容纳72个加速器的机架中ღ★✿◈。MTIA目前仅供Meta内部使用ღ★✿◈。但未来ღ★✿◈,如果Meta推出基于LLaMa的 企业级生成式人工智能 产品ღ★✿◈,这些芯片可以为该产品提供支持ღ★✿◈。
在2024年Hot Chips大会上ღ★✿◈,微软发布了Maia 100ღ★✿◈,这是其首款定制AI加速器ღ★✿◈,旨在通过软硬件协同优化ღ★✿◈,提升Azure平台上的大规模AI工作负载ღ★✿◈。Maia 100采用台积电N5工艺ღ★✿◈,并搭载先进的内存和互连技术ღ★✿◈,目标是实现高吞吐量和多样化的数据格式ღ★✿◈,并通过其SDK为开发者提供灵活性ღ★✿◈,以便快速部署PyTorch和Triton模型ღ★✿◈。然而ღ★✿◈,微软的下一代AI芯片ღ★✿◈,代号Bragaღ★✿◈,由于设计变更ღ★✿◈、人员限制和人员流动率高等原因ღ★✿◈,预计将从2025年推迟到2026年发布ღ★✿◈,其能效可能落后于英伟达的Blackwell芯片long8.唯一(中国)官方网站ღ★✿◈。
OpenAI正与博通和台积电合作ღ★✿◈,采用台积电的3纳米工艺ღ★✿◈,最终敲定其首款AI芯片的设计ღ★✿◈。OpenAI芯片团队的领导层拥有在谷歌设计TPU的经验ღ★✿◈,他们的目标是在2026年实现芯片的量产ღ★✿◈。龙8游戏官方网站ღ★✿◈。龙8国际唯一官网手游登录入口ღ★✿◈,龙八国际娱乐官方网站long8官方网站登录龙8游戏官方进入ღ★✿◈,芯片制造ღ★✿◈,龙八ღ★✿◈,