Moon

 · 24天 ago

关于人工智能的一些思考

这一切都表明,我们在人工智能领域仍处于非常早期的阶段。 我理解 OpenAI 的担忧。高达 1 万亿美元的未落实支出承诺,令人担忧地让人对当今人工智能的强大实力产生怀疑。OpenAI 的市场份额有所下降,并且从模型质量的角度来看,首次明显落后于另外两家公司。此外,他们还失去了大部分创始团队成员。互联网行业在雅虎、MySpace 和 AOL 倒闭后依然屹立不倒。我认为​​OpenAI 的市场份额被谷歌或其他公司蚕食,不会对整体代币需求产生实质性影响,而代币需求(取决于客户投资回报率)才是最终的关键所在。这些代币的份额固然会影响谷歌、OpenAI、xAI 和 Anthropic 的相对市值,但最终驱动所有供应商的,还是整体代币需求。

Gemini 3 表明预训练的扩展规律依然有效。这是自 O1 发布以来最重要的 AI 数据点。这意味着 Blackwell 模型在 2026 年第二季度发布时,性能可能会显著提升。GPT-5 并非扩展规律放缓的证据。GPT-5 的设计目标是降低推理成本,而非提升性能。它实际上是一个位于路由器后面的*更小*的模型。请不要告诉我 Gemini 3 是在 TPU 上训练的,因此不能直接应用于 Blackwell。无论是在 Blackwell 还是 TPU 上,预训练的关键在于一致性浮点运算次数 (FLOP)。

前沿模型:

推理技术极大地改善了前沿模型的经济效益和商业模式。推理技术释放了“用户生成数据,这些数据可以反馈到产品中以改进产品并吸引更多用户”的飞轮效应,而这正是所有伟大互联网商业模式的基石。在缺乏推理技术的时代,预训练是唯一的规模化法则,而这种飞轮效应并不存在。由于推理技术的出现,准入门槛正在日益提高。

前沿模型行业越来越像四家公司垄断的局面。Gemini、OpenAI、Anthropic 和 xAI 都拥有比公开可用的更先进的训练节点,这些节点正被用于训练他们的下一代模型。这使得其他公司很难追赶。Meta 或许还有机会,因为中国的开源模型只落后了 9 个月,但这机会微乎其微。

布莱克威尔(Blackwell)

Blackwell 的出现很可能会显著拉大美国前沿模型与中国开源模型之间的差距。与一年前 Hopper 相比,中国本土半导体厂商的性能已经远远落后于 Blackwell。这将进一步提高前沿模型的准入门槛,因为新进入者为了追赶,将不得不依赖日益过时的中国开源模型。

我认为中国会后悔当初没有抓住特朗普出售“B30”轰炸机的机会。布莱克威尔事件将改变美中之间的相对优势,尤其是在美国国防部大力推进国内稀土开采和提炼工作,并在未来两年取得成效之后。我认为目前正在研发的提炼技术方案被低估了,至少其中一些方案很可能会成功。

回顾过去 18 个月的人工智能发展,也就是自 2024 年 GTC 大会上发布 Blackwell 以来,我们必须了解,Blackwell 的首个版本 B200 的研发进度严重滞后,而且在初期阶段使用起来非常困难。多个衍生版本被取消,需要更换封装,而让 NVL72 机架正常运行更是难上加难。这无疑是技术史上规模最大、最复杂的产品过渡。试想一下,如果一款新 iPhone 需要用户将插座从 110 伏更换为 220 伏,安装多台特斯拉 Powerwall 储能系统,多台备用天然气发电机,以及全屋加湿器,那 NVL72 对数据中心来说就如同这般复杂。而目前正在量产的 B300,可以说是英伟达迄今为止最好的数据中心 GPU,其机架部署也在加速进行。 Nvidia 能够顺利完成转型并实现增长,这证明了客户对 B300 的期待有多么强烈。而且,在看到 Gemini 3 的结果之后,我认为基于 B300 训练的模型将会非常出色。

代币经济学:

在我作为科技投资者的职业生涯中,人工智能领域是我第一次意识到成本的重要性。苹果之所以能成为一家市值数万亿美元的公司,并非因为它是低成本手机生产商,英伟达也不是因为是低成本人工智能加速器生产商。但成为低成本代币生产商将是一项巨大的优势。目前,低成本代币生产商是谷歌,其次是 xAI。

谷歌的 Gemini 3 和 xAI 的 Grok 4.1 开始展现其相对于所有竞争对手的巨大基础设施优势。关键不在于 GPU 或 TPU 的数量,而在于集群/架构中*一致*的 GPU 数量以及跨集群/架构的通信成本。Gemini 3 和 Grok 4.1 显然是目前最好的模型,OpenAI 尽管推出了 5.1 版本,但仍未能与之匹敌。这是 OpenAI 首次位列第三。

电力短缺 = 更平稳、更持久:

CoreWeave 的季度业绩表明,即使 CoreWeave 在电力合同方面拥有优势,也很难及时实现电力上线和基础设施部署。未来电力短缺问题可能会加剧,并影响更多玩家。我认为这实际上是件好事。电力短缺自然会抑制 AI 的建设,降低过度建设的可能性,从而延长建设周期,并​​使其更加平稳。

电力短缺对 Blackwell 来说可能是个好消息。当功率成为瓶颈时,每瓦代币收益将成为决策的关键,因为代币收益实际上就等于收入。在电力受限的情况下,GPU 与 ASIC 的价格差异将不再那么重要。再加上谷歌将 TPU 出售给外部厂商,这很可能意味着几乎所有其他 ASIC 项目都将被取消。即使 ASIC 能够将 1 吉瓦数据中心的成本从 500 亿美元降低到 400 亿美元,这 400 亿美元的投资回报率也会降低,因为该数据中心产生的收入(代币)将大幅减少。总而言之,电力短缺将提升每瓦代币收益最高的半导体和系统的定价权。

光学:

光纤网络允许工作负载迁移到电力供应充足且价格低廉的地方。随着限电成为应对电价上涨政治压力的一种解决方案,这一点将变得越来越重要。多校区培训需要数量庞大的光纤网络,但与计算本身的支出相比,这部分支出仍然相形见绌——使其成为一种可行的经济替代方案。具有讽刺意味的是,光纤网络也是解决中国 GPU 短缺和电力过剩问题的方案,因为从铜缆转向光纤进行可扩展网络传输,可以弥补每个加速器计算能力的很大一部分不足,但代价是电力消耗的大幅增加。在互联网时代,“能用交换机就用交换机,必须用路由器就用路由器”是一项重要的原则。在数据中心,“能用铜缆就用铜缆,必须用光纤就用路由器”与之类似,而且对于几乎整个数据中心而言,“必须用路由器”的局面正不可避免地逼近。

GPU 残差值:

#Blackwell 广泛应用以来,Hopper 的租赁价格上涨,这表明 GPU 的残值可能需要延长至 6 年以上。即使是 A100,如今依然能带来非常高的可变现金利润率。如果这种趋势持续下去,预计 GPU 的融资成本将再下降 100-200 个基点。另外,考虑到数据中心的物理环境,GPU 1-2 年的使用寿命是不现实的。

人工智能投资回报率:

截至第三季度,超大规模数据中心运营商的投资回报率(ROIC)仍然高于其加大 GPU 资本支出之前的水平。这是量化衡量“人工智能投资回报率”最准确的方法,因为它也反映了谷歌和 Meta 将推荐和广告系统从 CPU 迁移到 #GPU 后所获得的巨大收入增长。未来两个季度,随着 Blackwell 的资本支出大幅增加,我们可能会遇到一个“投资回报率”波动期,因为 Blackwell 主要用于训练,所以这笔支出在初期并没有实际的投资回报。显然,人工智能的投资回报率只能来自推理。

标普 500 指数公司用了大约五年时间才开始大规模向云端迁移,而风险投资公司早已完成了这一转变。人工智能的迁移速度可能更快。值得注意的是,第三季度是多家标普 500 指数公司首次公布了人工智能生产力对其财务状况产生影响的具体数据,例如 CH Robinson。大型公司这些初步的生产力提升与风险投资公司在其投资组合公司中观察到的情况类似:自从几乎所有风险投资支持的公司都开始应用人工智能以来,每位员工的收入都实现了垂直增长。

结论:

这一切都表明,我们在人工智能领域仍处于非常早期的阶段。

我理解 OpenAI 的担忧。高达 1 万亿美元的未落实支出承诺,令人担忧地让人对当今人工智能的强大实力产生怀疑。OpenAI 的市场份额有所下降,并且从模型质量的角度来看,首次明显落后于另外两家公司。此外,他们还失去了大部分创始团队成员。互联网行业在雅虎、MySpace 和 AOL 倒闭后依然屹立不倒。我认为​​OpenAI 的市场份额被谷歌或其他公司蚕食,不会对整体代币需求产生实质性影响,而代币需求(取决于客户投资回报率)才是最终的关键所在。这些代币的份额固然会影响 #谷歌#OpenAI#xAI#Anthropic 的相对市值,但最终驱动所有供应商的,还是整体代币需求。

我认为将人工智能与以往的市场波动(例如2000年)进行比较非常有趣。不过,将人工智能视为潜在泡沫有点奇怪,因为量子计算和核能显然都处于泡沫之中,没有任何基本面支撑。更重要的是关注人工智能面临的真正风险:人工智能的经济价值难以估量(不像通用人工智能那样容易建模),以及如果人工智能没有经济价值,推理能力可能会转向边缘计算。

今晚只是人工智能稳步发展十年进程中的一个数据点。令人振奋的时刻!

作者 Gavin Baker

来源 https://x.com/GavinSBaker/status/1991248768654803337