Chiplet的未来
Chiplet的未来会是什么样子呢?它们可能会改变半导体行业的结构,将其从摩尔定律的束缚和少数代工厂的霸权中解放出来吗?或者,就像之前的薄膜混合物和multi-die封装一样,可能会分散到几个应用领域,风险和成本都是可控的。
Chiplet走向的决定因素主要由三个开放性问题来确定:KGD、互连,以及架构。
KGD
简单来说,KGD(known-good-die)是一个乘法问题。一个SiP(system-in-package)中正常运行的可能性小于每个在SiP中独立工作的die运行正常的概率的乘积。这个数字随着SiP中die数量的增加而急剧减小。解决方案是只使用你知道全部工作正常的芯片,即KGD。
(资料图片仅供参考)
问题在于,没有所谓的KGD。异常的die会通过测试过程混入。Die在处理过程中可能会受到损害,或在测试后出现故障。或者它们可以独立工作时是正常的,但在某种特殊的电压和温度组合下,在系统中无法正常工作。熵会像粮仓中的老鼠一样吞噬掉SiP的良率。
对于chiplet开发者来说,首道防线是充分利用现有的测试技术。如今,SoC的设计者必须在测试上做出妥协。他们通常以采用SoC中使用的IP所附带的测试方法开始,有时也以采用这些测试方法结束,然后可能会增加更多的测试。但是,由于芯片在测试上花费的时间可能会占总成本的很大一部分,设计者必须在测试覆盖面和成本之间取得平衡。
Chiplet自我修复
对于chiplet来说,情况有些不同。SiP通常无法通过低成本的方式来翻新,替换掉有缺陷的die,他们必须报废。所以,SiP开发者可能会接受chiplet的高单价,以获得较低的故障率,从而减少非常昂贵的SiP的报废率。这意味着chiplet供应商,特别是那些chiplet可能在同一个SiP中被多次使用的供应商,可以投入更多的精力去获得出色的测试覆盖率,并可以收回这部分成本。他们也可以在内置自测中投入更多,不仅用于现在常用的内存,还用于逻辑和模拟电路。
Chiplet供应商也可以投入更多的精力进行故障分析。通常,测试电路所有可能出现的失效是不可行的,除了短路或开路,或者死掉的晶体管,还有许多可能的故障,所有这些都需要不同种类的测试程序。但如果设计者可以分析芯片故障并找到根本原因,他们通常可以确保这些故障不会被测试漏掉。他们甚至能开发出可以预测chiplet后生命周期内的未来故障的测试。
作为最后一道防线,chiplet设计者可以创建自我诊断和自我修复功能的die。这项技术已经存在,至少在研究生论文和关键任务系统中存在。但它通常不被认为值得消耗大量的die面积。
不过,如果自我修复技术能使价值数千美元的SiP免于报废,这种想法可能会改变。
互联
一旦你有了良品die,下一个挑战就是互连。在SiP中,互连的最大问题是永远不够,连接不够、带宽不够、传播延迟不够小、刚性不足以承受机械冲击和振动、热导性不足以来帮助冷却chiplet,热膨胀性不足,以防止组件扭曲。或者,更准确地说,这些限制严重约束了架构师如何将SiP划分为chiplet。这些问题推动了chiplet安装基板的持续创新。
如今,主要基板材料是有机材质,是single-die传统封装使用的材料的延续。从原材料到印刷和组装设备到组装服务的供应链都是成熟的。有机材料在互连线的精细程度和间距,以及互连凸点的紧密程度方面存在固有的局限性。另外,这种材料的柔韧性较差,热膨胀系数也与硅相去甚远。这些特性限制了可安全组装的multi-die的尺寸和复杂性。
目前的主要替代品是硅基板。你可以使用IC制造工艺的一种版本来制造硅基板,通常被称为interposer,这种工艺可以打印出极其精细的特征,并能很好地控制电气特性。但这种先进的封装技术只有少数几家供应商,主要是最先进的代工厂。据报道,如果能够批量生产,仅基板的价格就可能超过1,000美元。
玻璃替代品
为寻求中间地带,Intel正在研究玻璃材料。在最近对分析师和媒体的一次演讲中,Intel的Pooya Tadayon解释说,玻璃比有机材料更硬,热膨胀性接近硅,可以实现非常精细的互连功能和稳定的大型组件。他预计玻璃将在本十年的下半段成为有机物的替代品。玻璃也为Intel的另一种技术路径打开了大门:在基板中加入光波导,将chiplet上的硅光子收发器互连起来。光互连可以大大提高互连数据传输速率。
光互连可能帮助解决的另一个问题很少被讨论,但却像逼近的风暴一样在地平线上若隐若现。那就是安全性。一旦将系统分割成chiplet,就会使一些关键数据通道暴露在不速之客的探测和观察之下。从技术上讲,单片SoC也是如此,但只有在装备精良的故障分析实验室中才能做到,而且还要付出巨大的努力。在某些应用中,恶意方可能会从SiP中提取他们无法从同等SoC中获取的数据或代码,这一点令人深感忧虑。这种可能性可能会迫使架构师们认真考虑诸如在SiP内部进行加密数据传输等安全措施,这对性能和chiplet的die面积都有影响。
互联
寻找最佳基板的过程中,还有另一个任务:如何在互连中传输信息。你传输数据的方式会影响到基板的需求和系统架构师如何在chiplet之间划分设计。
最明显的方法是将chiplet看作SoC上的IP模块。你可以在die上用单独的线路连接IP模块,用于时钟和控制等信号,并用宽并行总线连接数据。在一个die上,你可以根据带宽需求来调整总线的宽度。那么为什么不用同样的方式连接chiplet,使用单独的线路连接时钟和控制信号,然后使用宽总线进行数据传输呢?
如果非常小心,这种方法在时钟和控制信号方面效果很好。但是,即使使用了先进的封装,die之间的互连长度也要比die上的互连长度大得多,因此,速度更慢、功耗更高。这些单独的时钟和控制信号将输出到驱动焊盘,占用空间和功耗。而且,接触特定chiplet的互连线数量相当有限,尤其是有机基板。因此,如果你真的想在一个小chiplet上布线2,000条,那将会很困难,甚至不可能。
还有另一个问题。当你通过并行总线发送原始数据时,接收器必须等到一个给定传输的所有比特都到达后,才能从总线上读取数据。但是,总线越长(die之间的距离可能是几毫米或厘米)最快和最慢的比特之间可能会有更大的偏差。必要的等待时间会减慢总线周期,从而降低带宽。因此,虽然将chiplet视为在on-die的IP是合理的,但可能并不实际。
高速串行
还有一个方便的类比。为什么不把chiplet当作电路板上的独立芯片呢?计算机行业已经有了一种广泛使用的封装间传输标准,PCIe(Peripheral Component Interconnect Express)总线。PCIe通过将并行的信号束转化为串行的脉冲,对其进行编码,并通过特殊的高速串行发射器以比并行总线更高的每秒符号率将其发射出去,克服了拥塞和时序的问题。接收器在另一端解码传入的波形,重建脉冲,并将它们转换回并行比特。PCIe通过使用多通道此类串行收发器,可实现极高的数据传输速率,而串行-并行转换和编码/解码的延迟成本并不高。
但是,PCIe是为在厘米级距离的电路板上使用而开发的,而不是在毫米级的基板上使用。它放弃了速度和效率来换取距离。因此,一个新的行业联盟,包括AMD、ARM、Intel、Nvidia、Qualcomm、Samsung和TSMC等重要玩家,正在将PCIe的概念适应到先进封装的电气环境,并尽可能地依赖现有的协议。成果就是UCIe(Universal Chiplet Interconnect express),目标是成为SiP中chiplet之间连接的标准,尽管目前它并不涵盖某些关键需求,如与某些类型内存芯片的连接。该规范的目标是实现高数据传输速率和低单位比特传输能耗。但一些设计人员注意到,该规范对引脚的使用相当奢侈。
其它替代方案
同时,还有其他一些工作正在进行中。例如,Open Compute Project包括另一个物理层构想,即chiplet间高速接口的BoW(Bunch of Wires)规范。初创公司Eliyan开发了Nulink,这是BoW的进化版本。Nulink的目标是减少所需的die面积、chiplet间互联数量以及能耗。Nulink本质上是协议无关的,能够在同一物理层上实现UCIe协议、内存协议和专有协议。此外,虽然Nulink可以利用先进封装的优势,但它是为在电气特性不太理想的有机基板上使用而开发的。
架构师可能会对这些方案提出反对意见,因为延迟。SoC中各功能块之间的并行连接,从一个功能模块发送信号到另一个功能模块接收信号之间的延迟非常小。EDA工具集中的定时分析工具可以轻松处理这种延迟。
但是,将并行信号转换为串行脉冲流、编码该流、将其从一个chiplet传输出去、在另一个chiplet接收它、解码它、并将脉冲流转换回并行数据所需的时间,可能比仅仅将一个信号从一个chiplet传输到另一个chiplet的时间要长得多,而且可能变化不定。如果一个系统的分区方式使其性能对这些互连延迟非常敏感,那么它的性能就会很差。
另一方面,许多SoC今天使用NoC(network-on-chip)来连接功能模块,而不是点对点并行总线。尽管NoC本身也有延迟,但这比chiplet间互联的延迟要小得多,原因也不同。但SoC架构师已经找到了许多方法,使他们的设计能够承受这些网络延迟。事实上,即使是在处理器子系统中,模块之间的延迟往往也比模块之间的数据传输速率重要得多。因此,有理由相信,即使chiplet间的一些路径需要非常高的数据传输速率,互连延迟也不一定会成为SiP性能的限制因素。
朝向功能市场的发展
对于希望解决特定互连问题的SiP设计人员来说,丰富的互连替代方案将是一大助力。但它可能会阻碍芯片市场的长远发展。
DARPA最初设想的,也是许多chiplet倡导者仍在设想的chiplet市场,与当时的中型集成电路市场非常相似:系统设计人员可以从中挑选各种功能的chiplet,根据需要进行排列,而不必担心接口兼容性问题。当然,这种设想依赖于存在一个或几个特定应用的标准chiplet互连方案。如果每个chiplet供应商都选择支持他们想要的任何物理层和协议,或者如果每个chiplet都必须支持一系列竞争技术,市场就会受到阻碍。同样,如果一个标准组织试图满足各方的需求,那么该标准将变得过于复杂。
在这个狭窄的通道中航行是一种极大的挑战,但并非不可能。可以说,PCIe经过几代做到了这一点,不过,如果没有Intel当时在PC和服务器中的主导地位,PCIe能否做到这一点还是一个无法回答的问题。一个或许不太恰当的类比可能是NoC市场,一个伟大的想法导致了大量不兼容的架构的出现,以至于没有一个网络成为标准。
如果成功,chiplet设计师将拥有一个广阔、健康的标准产品die市场。如果互连领域混乱,那么可能只能为每个特定的SiP设计开发定制的chiplet,这使得chiplet供应商和SiP开发者更难以证明他们的设计成本的合理性,并从经验曲线中受益。只有时间能告诉我们答案。