英伟达迎来了最强的竞争对手

[ 热门新闻 ] 时钟、GPU,人工智能 2020-03-31 09:39:09

近年来，在数据中心的游戏和人工智能的推动下，英伟达(NVDA)实现了非常稳健的增长。

但在去年，该公司遇到了瓶颈。数据显示，过去四个季度(按顺序，英伟达的)收入同比下降分别24%、31%、17%和5%。今年一季度，英伟达的营收与两年前基本持平。这使得他们不能再重现2016年至2018年股市上涨至溢价倍数的那种增长。

然而随着英特尔(Intel)进入英伟达的大本营，该公司将面临越来越激烈的竞争，情况将变得更加复杂。这就是我想在这里进一步探讨的话题。

在未来两年内，英特尔将打造一个独立GPU产品组合，从入门级的移动设备一直到百亿亿级的超级计算机。简而言之，这将给英伟达的市场份额带来压力，该公司可能不得不采取更激进的定价策略，这也将给其毛利率带来压力。

虽然这需要很长一段时间，但英伟达面临的威胁是切实存在的，因为英特尔将为市场带来一些有趣的创新。

Intel Xe架构和DG1

自2017年英特尔从AMD公司聘请Raja Koduri，并为其首款独立GPU设定2020年时间表以来，人们就知道英特尔有意进入（高端）独立显卡领域。随着这次发布会的临近，更多的信息浮出水面，英特尔的战略也变得更加清晰。

首先，英特尔有一个循序渐进的计划，入门级的移动GPU(称为DG1，这里的移动，应该指代的是笔记本)将是其第一款产品，今年夏天开始发货)开始，并与7nm的Ponte Vecchio一起推广到数据中心。

这些 GPU将基于Xe架构，以前称为Gen12。该架构将有三种衍生产品:Xe LP (DG1)、Xe HP和Xe HPC (Ponte Vecchio)。因此，英特尔的桌面显卡预计将在DG1和Ponte Vecchio之间的某个时间点推出，可能在2021年初。

DG1给你的体验感，其实就像把英特尔在Tiger Lake的集成显卡升级到适当的独立显卡，因这时候你就不必与CPU共享功耗预算，而且它可能有更高的功耗预算，这将产生更高的时钟速度。因此，虽然性能应该得到改进，但这不会带来任何奇迹。

尽管如此，DG1仍有两点值得关注:

英特尔称，Gen11(在Ice Lake)的游戏性能是Gen9的两倍，执行单位（execution units）则增加了2.7倍，工艺也从14纳米进阶到10纳米。对于Gen12(Tiger Lake集成显卡)，英特尔再次声称性能提高了2倍，尽管执行单元的数量只增加了1.5倍，但进程节点从10nm演进到10nm+(这降低了大约10%的功耗)。

考虑到英特尔在(移动)CPU方面的市场份额，基本上每个DG1都将配备集成显卡的Intel CPU。一个诱人的可能性是合并两个显卡引擎(多GPU)。这将使DG1的性能翻倍，使其性能水平需要AMD和英伟达提供更多的硅。

第一个要点表明，英特尔已经通过Xe/Gen12对Gen架构进行了显著的改进。在基本相同的进程节点上，仅增加1.5倍的执行单元，就实现了2倍的增长，这表明英特尔在诸如每时钟性能、时钟速度和每瓦性能等方面取得了显著的进步。

一些泄露的信息表明，Gen12对其架构进行了重大的修改。这将重拾人们对英特尔在架构方面竞争力的所有期望，因为这只有在以后的回顾中才能恰当地揭示出来。但从外观上看，Xe将是一个完全值得独立化（discrete-worthy）的架构。

第二点是另一个颠覆性的变化，移动领域的竞争优势，如果它成为现实的话。

简单起见，我们假设英伟达看到了Tiger Lake的集成显卡性能，并希望自己即将推出的7nm移动GPU的性能提高2倍。先不考虑架构上的差异，这意味着Nvidia将不得不使用相当于192个Intel执行单元的CUDA/Ampere硬件(相当于Tiger Lake的96EU的2倍)来设计硅片。

这对于Nvidia来说没有问题，因为在这个例子中GPU，需要大约4 TFLOPS(少于RTX 2060)的运算能力。

虽然这一切都很好，但实际上在游戏过程中闲置着约2TFLOPS的计算能力——来自CPU的集成显卡。现在，如果人们猜测英特尔将使集成和独立显卡在游戏工作负载中一起运行（这是未经证实的），现在，如果英特尔将使集成显卡和独立显卡在游戏负载下同时运行(这一点还没有得到证实)，那么英特尔可以用2 TFLOPS独立显卡(因为其他2 TFLOPS显卡将来自集成显卡)与4 TFLOPS Nvidia显卡竞争，但只用其一半的硅。这给了英特尔巨大的成本优势。

这一优势在中档市场尤其明显，因为集成显卡的2 TFLOPS在高端市场的剩余比例将会降低。尽管如此，利用集成显卡（每个Intel CPU都有）将6 TFLOPS卡转换为8 TFLOPS GPU仍将带来33％的成本或性能优势。

我们得看看现实是否会像理论上听起来的那样好（或者说根本不会）。英特尔将于3月份在GDC发布更多关于Xe的信息。

但是，最有前途的创新在于Ponte Vecchio。

Ponte Vecchio:小芯片GPU架构

11月，英特尔推出了Ponte Vecchio。关于这个公告有很多报道，所以我只会报道最相关的部分。简而言之，Ponte Vecchio完全抛弃了所有传统GPU架构和设计的常见概念，就像AMD在CPU中对Naples和Rome做的一样。

一些最值得注意的细节(如果这些术语没有说明什么，请不要担心，我将在下面解释其重要性):

小芯片架构（带有Foveros die堆叠）
数据并行矩阵引擎：用于AI的INT8，BF16，FP16和高吞吐量FP64
SIMT（GPU）和SIMD（CPU）单元都能提高灵活性（从而提高性能）
具有高带宽Rambo缓存的Xe内存结构，可在所有工作负载期间保持高利用率
HBM与EMIB“胶水封装”
基于CXL(PCIe 5.0)的Xe在独立的桥式Vecchio GPU之间连接

英特尔以7nm进程节点为主导的产品，将于2021年第4季度推出。

这都是什么意思？英特尔会推出第一个7nm的GPU产品，并在2022年推出7nm的 Xeons和Core的“cash cow”处理器。我们要充分强调这一点是很困难的，因为从字面上看，英特尔在GPU领域的野心再清楚不过了。首先，这意味着英特尔将从一个在10/7nm工艺上Nvidia的追随者，变成在7/5nm工艺上的领导者(在GPU领域)。

（鉴于Nvidia的7nm芯片尚未发布，因此他们不太可能在2021年拥有5nm GPU。）

这怎么可能？Ponte Vecchio由十六个小芯片（chiplets）组成。英特尔尚未透露每个小芯片的裸片尺寸，但可能约为100mm2，因为这是新工艺技术的常见裸片尺寸。这样可以估算出大约需要1600mm2运算硅，其中不包括HBM和Rambo Cache芯片。

因此，英特尔不会仅仅以一个小型GPU来引领制程，也不会仅仅使用其差异化的（EMIB和Foveros 2.5/3D）封装技术通过组合多个芯片来创建一个大型GPU，而是会创建一个几乎不可能设计成一个monolithic dies的GPU: monolithic dies受到所谓reticle尺寸限制(~800mm2)。

因此，英伟达可能在7nm工艺上拥有大约800mm2的旗舰产品，以取代Volta，而英特尔将在进程节点上拥有大约1600mm2的旗舰产品，因此它的性能可能是英伟达所提供产品的4倍。

综上所述，通过使用一个小裸片，能让Ponte Vecchio成为新工艺技术的主导产品。然后，通过将这些小芯片组合在一起，英特尔将能够制造出一个裸片尺寸（和相应的性能）远大于单片芯片的GPU。在新工艺引入的早期阶段，这没有任何良率挑战，也没有大型monolithic dies的相应高成本。因此，这种小芯片方法的上市时间（与采用新工艺节点的大型单片GPU相比）至少有1-2年的优势。

基于此，英特尔超越了单裸片芯片的尺寸，拥有工艺优势，上市时间快，获得巨大的性能领先，这听起来很像AMD在Rome做的事情，因为他们就是这样干的。 (请注意，英特尔早在十多年前就开始致力于EMIB和Foveros的研发，因此英特尔绝不是在模仿AMD，英特尔可以说是第一个朝这个方向努力的。)

不过，我们必须看看英特尔是否可以利用自己的优势来在服务器方面获得比AMD更高，更快的市场份额。考虑到整个CUDA生态系统，这就是为什么英特尔现在已经在谈论它以引起开发人员的兴趣，以及为什么它创建了自己的oneAPI软件开发工具，其中包括一个来自CUDA的转换工具。

游戏GPU的前景

英特尔正在全力开发一流的GPU产品，其多项差异化功能对英伟达在该领域的竞争力和领导地位构成了真正的威胁。

在低端方面，我们所知道的关于DG1的一些细节（因此，通常是Xe架构）表明，它在每瓦性能和其他指标方面都比Gen11有了很大的提升。此外，还有一个非常有趣的选择，即英特尔可以让其独立和集成显卡在游戏中协同工作，这可能为笔记本电脑带来可观的性能和成本效益。

在数据中心的高端，Ponte Vecchio由一个独特的小芯片架构组成，总共有16个计算小芯片。芯片技术的发展将意味着英特尔将在图形领域成为第一个拥有7/5nm节点技术的公司，其成本和芯片尺寸都将远远超过任何单片芯片。

当然，英伟达有可能正在研究一种类似的方法，正如它在研究中所显示的那样。但到了这种反应出现的时候，英特尔可能已经取得了显著的增长，而且它将再次为市场提供公平的竞争环境。）

英特尔将会在桌面游戏的高端平台上带来什么(也许会利用一些Ponte Vecchio的功能)？至这些将是什么节点的产品？具体时间是什么时候？以上问题都让人高度关注，一些传言说2022年在TSMC 7nm上。但现在讨论这些还没什么意义。

根据常识(假设英特尔按照其计划执行)，我认为Xe HP最可能在2021年上半年发布，这意味着Nvidia很可能在7nm制程上保持领先，而英特尔则开始其多年努力，成为公认的GPU巨头。

如果英特尔能在2022年推出一款7nm独立游戏GPU(根据一个老传言，代号为Jupiter Sound)，那么它将有机会与Nvidia的5nm产品线一较高下。

关于人工智能

在最近的一篇文章中，我将数据中心中的人工智能描述为这十年英特尔的主要增长驱动力之一。考虑到英伟达在同一领域竞争，这些有利因素也应该或多或少地适用于英伟达。

不过，还是要提醒大家注意。正如我在那篇文章中所描述的，随着最近收购Habana，以及2021年Ponte Vecchio的加入，英特尔将拥有不少于三条产品线来挑战Nvidia在价值30亿美元以上的数据中心人工智能、深度学习训练芯片和太空领域的垄断地位。如果这个市场增长到60亿美元，但是Nvidia失去了一半的市场份额，它将一事无成(在这个例子中，英特尔增加了自己30亿美元的业务)。

同样，在推理芯片方面，英伟达甚至没有一个真正有意义的开始。我还注意到，推理芯片的一方是（预计将是）未来大部分资金将流向的地方。重新设计的GPU是否足以获得优势，或者Nvidia是否提出了其他建议，将不得不拭目以待。

进一步来看，在自动驾驶方面，几乎没有迹象表明英伟达有动力大量采用其驱动套件。

因此，我不清楚英伟达的高估值到底来自何方，也不清楚在英伟达将面临的竞争和基本上没有增长的情况下（因为数据中心的增长故事也很快变得平淡），英伟达的高估值是如何证明的。

风险与挑战

但我们必须承认，英特尔是市场上一个新的、技术上未经验证的玩家：尽管英特尔在图形IP开发方面有着悠久的历史，但迄今为止，他们在这一领域的表现仅限于（相当低端的）集成显卡。

我已经描述了英特尔将带给市场的一项独特的技术，用新工艺技术将更小的小芯片封装，以更快地将GPU推向市场，但是英伟达可能会提出一个类似的多GPU解决方案，使竞争更加公平。

虽然我认为英特尔在英伟达所有业务中提供极具竞争力的产品的前景很好，但该公司必须占据相当大的市场份额，才能对英伟达的收益产生显著影响。这将是一个持续很久的故事，通过多次产品发布来获得动力。

来到人工智能方面，我认为推理芯片是更重要、更大的市场（与英伟达目前占据主导地位的训练芯片相比），但我可能低估了英伟达利用其在训练芯片方面的投资可能带来的势头：GPU已经在那里使用多年，而专用的人工智能芯片（如Habana）则相对较新。正如我在一篇有关英特尔的文章中所概述的，人工智能很可能会成为一个很大的细分市场。

这可能不是一场零和（zero-sum）游戏：即使英特尔发展壮大，整个市场仍有可能增长。换句话说，我可能低估了英伟达的增长机会，即使竞争更加激烈。但是英伟达在其核心显卡业务上将面临很多风险。但幸好的是，英特尔自是这个市场上的新挑战者。

一个类似的例子是Xilinx（XLNX）与英特尔在FPGAs上的竞争。尽管威胁依然迫在眉睫，但在过去4年里，英特尔迄今未能从Xilinx手中夺走多少市场份额。与英伟达类似，Xilinx近年来的股票表现是由一般市场动态而非竞争环境决定的。