炒股上杠杆 对垒英伟达,AMD还差在哪儿?
虞晓芬:房屋养老金制度是为保障房屋安全所作的兜底性制度保障
作为脱胎于万科集团的物业公司,万物云的经营情况也不可避免的受到万科集团,以及房地产行业开发业务的影响。
文 | 半导体产业纵横
在科技飞速发展的时代,半导体行业始终是焦点所在。AI 芯片领域更是犹如战场,各大厂商你争我夺。
近日,AMD 推出新款芯片 MI325X,并随之更新了 AI 芯片路线图,这一举措在业内引发了强烈反响。与此同时,人们广泛热议,AMD 是否能够向英伟达的领导地位发起有力挑战?AMD 又能从这场激烈的竞争中攫取多少胜利的果实?除了 AMD,英伟达需要面临的挑战还有哪些?
在此之前,一起了解一下 AMD 的新款芯片 MI325X 带来哪些亮点?以及其最新的 AI 芯片路线图又透露了何种信息。
MI325X,能否与 B200 掰手腕?
AMD 最新推出的 Instinct MI325X AI 加速器,在大获成功的 MI300X 基础上再进一步,着重增强了 HBM 内存部分。
在 AMD 的表述中,主要将其与英伟达前代产品 H200 进行对比,而在今年 3 月,英伟达发布了其新款 AI 芯片 B200。至于 AMD 这款新品与英伟达的 H200 相比有哪些亮点,这款产品有没有能力与英伟达的最新 GPU B200 掰掰手腕?
为了对比更为详尽,本文再次将这几款产品进行对比。
AMD 最新推出的 Instinct MI325X AI 加速器采用了 AMD CDNA 3 GPU 架构,内置 1530 亿个晶体管,配备 256GB 下一代 HBM3E 高带宽内存,提供 6TB/s 的内存带宽。此外,MI325X 在 FP8 和 FP16 精度下分别达到 2.6 PF 和 1.3 PF 的峰值理论性能。
作为对比,英伟达 3 月发布的基于 Blackwell 架构的 B200 GPU 基于台积电的 N4P 制程工艺,拥有高达 2080 亿的晶体管数量和 192GB 的 HBM3e 内存容量,提供了 8TB/s 的内存带宽,以及 20PF 的 FP8 峰值性能。
英伟达 B200 GPU 的 AI 运算性能在 FP8 及新的 FP6 上都可达 20 PF,是前一代 Hopper 构架的 H100 运算性能 8 PF 的 2.5 倍。在新的 FP4 格式上更可达到 40 PF,是前一代 Hopper 构架 GPU 运算性能 8 PF 的 5 倍。
从工艺制程上来看,MI325X 未作披露,而 B200 采用上文所述的台积电 N4P 制程工艺。
从晶体管数量来看,英伟达 B200 此数值两倍于 AMD MI325X。
从内存角度来看,AMD MI325X 有着更高的内存容量,这可能使其在某些 AI 模型的推理性能上表现出色,但其带宽低于英伟达 B200 的 8 TB/s。
从 FP8 峰值性能来看,英伟达 B200 以 20 PF 的 FP8 峰值性能脱颖而出。虽然在浮点运算能力上,B200 整体上要优于 MI325,但 MI325 的性能也足以满足大多数人工智能和高性能计算的需求。
从量产时间来看,两者的量产时间较为接近。AMD MI325X 预计在 2024 年第四季度正式投产,2025 年一季度开始向客户交付。英伟达的 B200 芯片原计划于今年晚些时候正式出货,然而由于 Blackwell 产能问题影响,其新款 Blackwell B200 芯片将延迟发布三个月或更长时间,批量出货或延迟至明年第一季度。
总体而言,AMD MI325X 与英伟达 B200 相比,仍存在显著差距。不过,与英伟达的前代产品 H200 相比,MI325X 的数据参数已有了大幅提升。
AMD 数据显示,MI325X 与英伟达 H200 的集成平台 H200 HGX 对比,MI325X 平台提供 1.8 倍的内存量、1.3 倍的内存带宽和 1.3 倍的算力水平。苏姿丰还表示,在运行 Meta 的 Llama 3.1 大模型时,MI325X 的推理性能比 H200 高出 40%。
未来 AI 芯片路线图,再度更新
除了芯片的发布,AMD 还公布了最新的 AI 芯片路线图。
AMD 的 AI 芯片布局
AMD Instinct MI350 系列首款产品即 Instinct MI355X,将引入新一代的 CDNA 4 架构,采用 3nm 工艺制造,搭配 HBM3E,总容量进一步提升到 288GB,对应带宽提高到 8TB/s,TDP 也上升到 1000W,计划 2025 年下半年开始发货。
按照 AMD 的说法,Instinct MI355X 提供了 2.3PF 的 FP16 和 4.6PF 的 FP8 计算性能,相比前代产品的提升幅度约为 77%。此外,新产品还将支持新的数据类型,包括 FP4 和 FP6。
另外,基于下一代 AMD CDNA " Next "架构的 AMD Instinct MI400 系列预计将于 2026 年上市。
英伟达的 AI 芯片布局
沿着规划的 AI 蓝图,英伟达加速前行,接下来将一年就更新一代产品,以往通常是两年更新一代。
今年 6 月,英伟达 CEO 黄仁勋带来了最新的 AI 芯片路线图。
眼下,Blackwell 架构的 GPU 产品正在生产中,将成为 2024、2025 年的重要营收驱动。
接下来,英伟达计划发布一个增强版 Blackwell Ultra GPU ( 8S HBM3e 12H ) ,预计将于 2025 年推出。这款芯片将拥有 8 堆叠 HBM3e 内存,每叠有 12 个 die 高。B100 中的叠层大概是 8 堆叠,因此这应该代表 Blackwell Ultra 上的 HBM 内存容量至少增加 50%,甚至可能更多,具体取决于所使用的 DRAM 容量。HBM3E 内存的时钟速度也可能更高。
下一代 Rubin GPU ( 8S HBM4 ) 和相应的平台将于 2026 年上市,这款芯片在此前的英伟达路线图中曾被称为 X100,Rubin GPU 将使用 HBM4 内存,并将有 8 个堆栈,大概每个堆栈都有 12 个 DRAM。
随后于 2027 年的 Rubin Ultra GPU 将有 12 个 HBM4 内存堆栈,并且可能还有更高的堆栈。
为了有更直观的对比,可以仔细查阅下图:
那么,从技术路线图的角度进行观察,AMD 与英伟达在发展进程上似乎并没有太大的差距。然而,在实际应用场景当中,这两家企业之间的较量究竟呈现出怎样一番景象呢?当产品真正投入到各种应用场景中时,无论是在游戏体验、专业图形处理,还是在人工智能等相关领域,AMD 和英伟达的产品会各自发挥出怎样的性能?
较量之下,英伟达依旧是最大赢家
过去数年间,英伟达在数据中心 GPU 市场中占据了主导地位,几乎构成了垄断,而 AMD 则长期稳居次席。
根据今年年初富国银行的统计,英伟达目前在数据中心 AI 市场拥有 98% 的市场份额,而 AMD 仅有 1.2% 的市场份额,英特尔则只有不到 1%。
近日,根据摩根士丹利分析师发布的报告称,英伟达 Blackwell GPU 未来 12 个月的产能已经被预定一空。这意味着现在下订单的新买家必须等到明年年底才能收到货。摩根士丹利的分析师 Joseph Moore 在给客户的一份报告中指出,英伟达的传统客户(AWS、CoreWeave、Google、Meta、Microsoft 和 Oracle等)已经购买了英伟达及其合作伙伴台积电在未来几个季度将能够生产的所有 Blackwell GPU。
如此压倒性的需求可能表明,尽管来自 AMD、Intel、云服务提供商(自研 AI 芯片)和各种小型公司的竞争加剧,但英伟达明年的 AI 芯片市场份额将会进一步增长。
不过,AMD 并没有因此沮丧。AMD 在与英伟达的竞争中,长期将自身看作"市场的多一种选择"。苏姿丰此前表示,AI 芯片市场足够大,容得下多家企业," AMD 不是必须要打败英伟达才能成功"。
市场研究机构 Moor Insights&Strategy 首席分析师帕特里克 · 莫尔黑德(Patrick Moorhead)表示," AMD 面临的最大挑战是获得企业市场份额。AMD 需要在销售和营销方面投入更多资金,以加速其企业增长。"
从当前 AI 市场竞争格局来看,尽管 AMD 新款 GPU 较以往有所进步,但业界分析师认为,AMD 的技术至少落后英伟达一年。
不过,根据美国投资银行和金融服务公司 KeyBanc 分析师约翰・温(John Vinh)的分析,他认为今年AMD MI300X AI 加速卡的出货量将突破 50 万张。该分析师认为在数据中心领域,英伟达虽然一骑绝尘,AMD 难以望其项背,但是 Instinct MI300X 凭借着卓越的实力,极高的性价比,成为行业客户的重要备选方案,包括联想在内的部分公司都认可 MI300X,这最终为 AMD 带来了更多的业务。
在近日的芯片发布会上,AMD 还强调了与甲骨文、谷歌、微软、Meta 等厂商的合作关系,苏姿丰称,微软、OpenAI、Meta、Cohere 等多个厂商的生成式 AI 平台已采用 MI300 系列驱动。
至于英伟达究竟有何优势,以及基于哪些条件使其在 AI 盛行的时代脱颖而出,主要有以下几点。
两者对比,差距在哪里?
第一,英伟达的 AI 芯片本身性能就十分强悍。从架构设计上来看,英伟达的 AI 芯片采用了高度优化的架构;在浮点运算能力方面,英伟达的 AI 芯片表现卓越。浮点运算能力是衡量芯片处理能力的关键指标之一;英伟达的芯片还具备出色的并行处理能力。AI 计算任务通常具有高度并行化的特点,英伟达的 AI 芯片通过集成大量的计算单元,能够同时处理多个数据块。这种并行处理能力可以让芯片在处理 AI 任务时充分利用数据的并行性,进一步提高计算效率;在内存带宽和缓存设计上,英伟达也有独特的优势。
除了强悍的芯片性能,英伟达在以下几个方面的努力也多有裨益。
第二,在研发投入方面,英伟达向来不惜 "血本"。据悉,英伟达在截至七月份的季度中录得 30.90 亿美元的研发费用。将这一数字按年计算,这家 GPU 制造商一年的累计研发费用约 123.6 亿美元。
相比之下,AMD 在其截至 6 月底的季度中录得 15.93 亿美元的研发费用。将这一数字按年计算,该公司一年的累计研发费用为 63.72 亿美元。换句话说,根据目前的年化预测,英伟达目前的研发投入是 AMD 的 2 倍。
其实在发展初期,英伟达就非常重视研发生产力。2005 年,AMD 的研发费用为 11 亿美元,是英伟达的 3.2 倍左右;而到了 2022 年,英伟达的研发费用就达到 73.4 亿美元,是 AMD 的 1.47 倍。截至整个 2024 财年(2023 年自然年),英伟达研发费用高达 86.75 亿美元,是 AMD 同期研发费用的 1.48 倍。
过去 10 年(2014-2023 自然年),英伟达累计投入费用高达 364 亿美元,高于苹果公司、微软公司等科技巨头。随着研发投入的不断增长,英伟达通过技术进步降低成本和产品价格,不断推出新的产品吸引更多消费者,优势自然也逐渐凸显。
第三,在生态布局方面,英伟达下手也颇早。英伟达推出 CUDA 平台,使得利用 GPU 来训练神经网络等高算力模型的难度大大降低,将 GPU 的应用从 3D 游戏和图像处理拓展到科学计算、大数据处理、机器学习等领域,这一生态系统的建立让很多开发者依赖于 CUDA,进一步增加了英伟达的竞争壁垒。
如今 AMD 在抢占市场份额时遇到的最大难题,就在于英伟达利用自家 CUDA 平台,已在 AI 软件开发领域建立起一条护城河,把不少开发人员牢牢绑定在了英伟达的生态系统里。作为应对,AMD 一直在不断优化名为 ROCm 的软件,目的就是让 AI 开发人员能更轻松地把更多 AI 模型"搬"到 AMD 的芯片上。目前,ROCm 的最新版本 6.2,相较于旧版在推理和训练上都有了超过 2 倍的提升。
第四,英伟达凭借早期与台积电的紧密合作,得以在先进制程的获取上抢占先机。在芯片制造中,先进制程工艺能够显著提升芯片的性能表现。英伟达与台积电长期稳定的合作关系,使其在芯片生产的供应链管理上更加成熟。这种成熟体现在生产计划的精确安排、生产周期的有效控制以及产品良率的保障上。英伟达可以根据市场需求预测,合理安排芯片的生产计划,确保产品能够及时供应市场,满足客户需求。同时,在生产过程中,较高的产品良率意味着更低的生产成本和更高的生产效率。
相比之下,AMD 在争取台积电先进制程产能时,往往受到英伟达订单的挤压,在生产计划和良率控制方面可能面临更多的不确定性,这在一定程度上影响了 AMD 产品的市场竞争力和供货稳定性,进而导致其在 AI 芯片市场份额争夺中处于劣势。
结语
综上所述,英伟达在研发投入、生态布局、生产制造以及芯片性能等方面都展现出强大的实力,这使其在当前的 AI 芯片市场中占据了绝对的主导地位。然而,AMD 并非毫无机会。尽管目前 AMD 在这些关键领域相较于英伟达处于劣势,但它正在积极地做出改变和追赶。
随着 AI 市场的不断扩大和技术的持续迭代炒股上杠杆,未来充满了变数。十年之后的 AI 芯片市场将呈现何种竞争格局,还未曾可知。