2024-12-09 15:56 点击次数:83
近期,有媒体报说念了微软在2025年对GB200机架的挑升想兴致订单削减,并将部分需求转向GB300。总体而言,GB200下流的增长速率将慢于预期,但我Blackwell上游的出货量不太可能发生变化(2025年约为500万台)。这可能对鸿海和液冷供应商组成罕见的负面影响。
Q:之前市集别传基于贵司的铜缆cartridge麇集和拼装问题,可能导致GB200再次脱期或订单更动,您对此的行业不雅察和市集瞻望是什么?
A:供应商cartridge产量和产能处于快速擢升中,10月之前产能有限,险些莫得深刻量量产,而10月之后处于量产状态,天然这种量产界限和产能景况尚未达到英伟达预期,举例英伟达可能但愿每个月知足2000~3000台NVL72所需要的cartridge需求,当前远远莫得达到,但照旧插足量产状态,至于您提到的问题,当年可能花了几个月时间和英伟达一说念惩处时间问题,这里指的是出货之后、机架安设过程中的靠近的问题和优化,同期公司我方当年几个月也花了许多时间和元气心灵取改善产线,以及优化产线、模具等,以保证最终居品质能,您说的问题可能更多指出货后、在客户侧发生的问题,但这个问题个东说念主认为当前应该基本惩处,照旧插足量产阶段。
Q:瞻望下之前产能遭遇的瓶颈是什么?
A:只谈线缆背板部分,NVL72将线缆背板分红4个部分,每个部分称为1个cartidge,是一个铁壳,内部包裹许多电缆,而电缆包括双方的联接器和中间的线缆,拼装成1条线,然后多条线拼装至cartridge的壳里,再把麇集器清晰来,这是最终的制品。中枢的部件是三个部分,一是联接器,主要由联接器工场完成,二是中间的线缆,由线缆供应商完成,两个工场作念完后运至拼装工场来拼装坐蓐,拼装业务指的是将联接器,如cartidae里可能有1300对差分信号,需要将这些差分信号和联接器焊合起来,临了拼装成8个pair,临了多条线缆拼装成cartridge,这是拼装产线的顺次。关于联接器、线缆、拼装这3个部分,制约产能的如故拼装,天然也能听闻称线材也存在产能不及,但可通过和外面一些供应商合营来惩处产能问题,而联接器部分,自己也用于其他场景,相对而言更容易制造,许多责任王人是自动化产线完成,且其仅仅作念成一个零件汉典,运至最终的拼装产线工场,因此,真的的产能瓶颈是最终拼装产线部分,包括自动化产线,及拼装完后的测试。而自动化产线,即焊合拼装的这部分产线应该是最大的瓶颈。
365建站客服QQ:800083652
Q:瞻望下当前自动化率大略达到百分之若干?
A:联接器基本上王人是自动化产线完成。线材是当年法度的、惯例的线材拼装坐蓐线。这两个部分运到拼装产线后,第一步焊合:每一双差分信号线与线缆焊合,包括线材的裁线、拨线和焊合,扫数过程王人是自动化产线完成。多条线再拼装成一个cartridge,这些过程是手工完成。从这个角度,主要中枢责任王人是自动化产线完成,但背面将当前来看不太可能用自动化产线完成,王人是手工完成。至于焊合过程,联接器与线之间的焊合,其拼成最终居品,包括线材的裁线、拨线和焊合,许多公司产量不大,这些手脚不错东说念主工完成,仅仅雄厚性不如自动化产线。如果问焊合过程有若干百分比是自动化产线完成的,那便是100%。但如果问扫数cartridge有若干是自动化产线完成、若干是手工完成,个东说念主以为大略是60%由自动化产线完成,40%是东说念主工完成。
Q:因此当今主要出问题的、不雄厚地方是手工部分,自动化的几个顺次是否颠倒雄厚?
A:也不行完全这样说,然而即使是自动化产线,如果够不上预期性能,每个自动化产线达成后,会进行S1测试(信号圆善性测试)。如果焊合不好,会被判定为失败,这条线就不会被使用。是以惟有通过测试并插足下一个过程关节,便是一个及格线缆。表面上,自动化产线不代表100%没问题。如果有问题,会在Sl测试中过滤掉。尔背面多个关节是手工拼装,这个过程也可能会有问题,然而这些问题最终也会作念测试,当年刚运转时候亦然作念SI居品线测试,背面也会作念一些误码测试(雷同模拟客户在真的系统里的误码测试),这种测试当中信服是会发生发现一些问题,跟着坐蓐教学越来越多,之前的问题也渐渐被优化和减少。因此,如果说出问题,每个关节王人有可能有问题,但前边的自动化产线是下线就立即作念测试,背面的这些顺次,从pair到组cable,再到cartridae,这里莫得倡导对每个过程王人作念SI测试,因此可能临了才会发现存问题,再追念这些问题在何处发生,相对而言是一个相比复杂的过程,如果有问题,会在最终测试中被阻难下来。
Q:当今全体而言,失败率或及格率是若干?
A:个东说念主莫得这个数据,个东说念主不错尝试取预想这个数字。个东说念主认为,基于扫数过程照旧算相比熟谙,群众王人相比有教学,因此,个东说念主预想当前每个过程中被被阻难下来的可能最多是百分之几这样一个比例,如3~5%。以后这种比例可能会颠倒低,如99%王人不会有问题。
Q:您指的3~5%是某一个关节如故拉通来看?
A:自动化产线部分可能1%不到存在问题,即绝大部分王人不会有问题。背面拼装成一条线的过程,还会作念一个测试,这个地方以前可能3%傍边的失败率,而当前可能真的景况应该也在1%傍边,个东说念主信赖最终通过率会颠倒高。到作念成一个cartridge关节,因为如果有一个pair有问题,或1300对信号当中有一根线有问题,扫数cartridge王人算fail,比如说坐蓐100个cartridge,乘以1300对信号,13万对信号中惟有出现3对信号有问题,这三对信号发生在三个不同的cartridge上,意味最终cartridge失败率就3%,从这个角度,臆测可能有3~5%失着力,但这些比例个东说念主信赖异日王人会裁减。
Q:是以您的兴致是从扫数cartridge角度看是3%失败率,而不是从线、一双差分对的角度来讲是3%?
A:对。
Q:这个水平是否照旧算很低?
A:是很低的。天然很低,但这里指的是前边关节照旧作念了最少2次SI测试,前边有失败的地方照旧将其拿走将前边两个关节照旧认为100%没问题的线,拿去作念拼装,临了如故有失效的情况。
Q:关于刚才所说的失着力,是否最终检查测试截止王人OK,但发给英伟达之后,英伟达照旧降至3%水平,给拼装厂,截止在整机拼装关节,发现整机不行点亮,或有些端口速率跑发火,进行倒查发现是cartridge铜缆问题,又给公司反馈回想,是否会有这种情况?
A:个东说念主认为,这种情况可能当年几个月会有,并且这是联接器行业常见的情况。之前测试技能相对单一,背面可能确乎有过这些问题,是以英伟达把雷同于整机柜的机架,包括switch或computing tray,王人提供给本公司,让cartridge在出货之前,往上头插试一下,来作念粗浅的测试,天然这不是一个真的兴致兴致switch或server,内部主若是无源板子,来进行误码测试。因此,之前发生过这样的问题,但背面在英伟达提供了配置让本公司测试后,如果每个居品出货前王人作念了这个测试,基本上不太可能运到现场再出问题,并且是本公司居品的问题,这种可能性不大。因为在出货之前照旧模拟了真的哄骗场景。但该测试并非100%王人作念过,这点个东说念主不敢信服。因为如果要100%去测试每个居品,着力会很低。因此,英伟达又让本公司开辟另外一套测试治具,将cartridge舍弃于测试配置里,也雷同模拟了真的场景,即用一些板子插入cartridge上,板子上装载一些芯片,来模拟其芯片速率来进行误码测试,这样测试的着力更高。这种测试配置在后期哄骗后,着力更高,资本也相对更低。总之,跟着这些新的测试技能运行,cartridge出问题的概率会低,但也无法说完全不会发生,
Q:兴致是当前测试配置里莫得真的的Blackwell,而是一些假芯片?
A:个东说念主贯通,是的。
Q:之后转换的配置,是否会有真的的Blackwell芯片?
A:当今相当于把机架和Server Switch运过来,但个东说念主臆测里边是假的,可能莫得许多功能板,仅仅外形一样。个东说念主没看过内部是否有Blackwell,不明晰内部具体是什么花样,总之是芯片在内部,进而不错快速检测信号能否跑通。背面需要让cartridge装在机架上的这种花样相比缺乏,这是其真的哄骗场景,但并不符合作念测试,基于测试需要每一个王人装到上头,再把Switch鼓动去,而这个遐想自己就不是用来作念测试的,如果这样去作念测试,着力很低。因此公司从信号对、扫数cartridge豆联量度、每一双的位置、什么位置应该跑什么样的信号、测试误码率等方面雷同模拟其哄骗场景,来作念100%的每一双的误码率测试,这样测试着力会高许多。
Q:天然新测试用具着力提高,但基于其装在GB200里,如果运行一些大模子测验任务,功耗可能很高、全体责任负载也较重,而具体业务场景、软件类兼容性等较真的业务场景可能无法测试到,是否测试治具上没问题,但真的场景可能无法达成预期着力?
A:一般不会。在联接器、线缆或PCB行业,对通说念的信号圆善性的性能条款是不错量化。如自动化产线作念一条线后,会坐窝作念SI测试。客户最终系统是否能跑通,是不错量化每一段的S!蓄意条款,惟有计算、评估给出的法度没问题即可。天然如果给的蓄意很严格,可能无法达到,如果太宽,可能导致系统无法责任。如果客户给的S!蓄意很准确,公司也作念了100%测试,表面上无黑再误码测试,就不错判断为没问题。坦直而言,公司无法100%将SI每个蓄意王人作念测试,一般PCB其实是意外的,也无法测,要装上测试头才不错测。而线缆不错测试,但也无法100%将所商酌王人测一遍,而是常常测两个蓄意,即插入损耗和阳抗,这两个蓄意如果有问题,可能反应出拼装过程有问题。串扰的部分,不是没倡导测试,而是测试着力太低,要花很长时间。并且一般居品遐想后,不太可能影响串扰了。如果阻抗作念的测试也没问题,意味着坐蓐线莫得问题,一般通过Sl来作念这样的测试。之是以刚才说要作念误码率测试,主若是基于跑的码率更接近真的业务,表面上不错模拟真的哄骗场景,并且时间不会很长。举例,关于秒钟的224G而言,照旧是224乘以10的9次方的字节,因此测试十几、二十几秒,也照旧是许多字节。是以不错较快作念这种误码测试,但测试打的码确乎和业务不同,因此也不行完全反应客户系统最终景况。但一般误码测试或S测试通事后,基本不会有问题。因此行业里出现问题,大略率不是本公司联接器或线缆SI问题,而是机械结构等方面引起的。举例,这样多线放在一说念,线需要盘曲、缠绕,如果弯折太蛮横,可能导致里边信号圆善性被粗放,如果原始遐想作念得好,线莫得乱动,是没问题的。但如果安设过程中把线掰来掰去,或者联接器变形,雷同机械结构或环境等身分导致临了业务没跑通或跑通但产生许多误码,这并非原始居品问题。天然,如果是一运转坐蓐时不雄厚导致的问题,以当今多个关节、多种测试技能来看,那种一火命之徒的概率很低,更多是因为后期,在测试之后不知说念何种原因导致SI性能变化,这种可能性更大。
Q:您刚才说有许多可能的原因,但2个月前,市集主要不雅点在于漏水问题,但那时一些大师暗示,漏水的问题存在,但照旧镇静惩处,更多是NVLink的问题,基于给客户发了初版Blackwell样品qualification sample,但客户反应正本标定NVLink速率是72个GPU两两之间1800 GB/每秒的双向互联带宽,截止发现存些端口速率跑发火,但不祥情这是硬件如故软件问题。从您专科角度分析,如果出现这种问题,一般是哪方面原因?
站群论坛A:如果在两个月以前,那时本公司产线还在渐渐熟谙中,也并非一运转就作念得很好,因此可能出现一些问题尔后续许多测试技能在几个月前也莫得,因此确乎那时可能是cartridge居品的问题。而今天这些测试技能王人用上后,还出现这样一些问题,就可能是刚才个东说念主所说的原因。天然这件事较复杂,独揽易知说念哪个关节出问题。当年和英伟达工程师责任很长时间来界说扫数测试表率,如最终居品达到何种S!蓄意是不错收受。个东说念主也信赖,基于这些年群众一直王人这样作念,因此不太可能说规格定错的原因。如果这些莫得出错,又作念了之前莫得的S测试,还出问题的话,个东说念主愈加信赖可能是背面拼装过程,或输送过程中,让居品形态发生了一些变化。基于cartridge装在内部,假定输送过程中迤逦太蛮横,某些点莫得接很好,可能有一些拉扯或形变,导致阳抗发生变化,或者抖动太蛮横,或者输送过程中外力冲击,导致线材在里边变形,也可能导致S!蓄意变化,进而反应在临了跑出来的系统中。这样分析下来,亦然本公司的居品问题,但何时、何种情况导致这个问题,分析起来会很复杂,许多时候险些很难复现问题原因。
Q:个东说念主还听大师提过,在安设cartridge时,pin在对位时有可能有变形,导致拼装时可能斗争不良,您是否也不雅察到此问题?
A:从英伟达一运转遐想想路来看,不太可能出现刚才说的问题,基于运转遐想cartridge时,英伟达建议这个行业里边迄今为止很尖刻的条款。当年的背板是把联接器压接到PCB上,联接器和PCB固定死,莫得任何迁徙、浮动范围。而cartridge的遐想,是为了让交换机、功绩器这样重的配置往里边对插时不要损坏联接器。因此英伟达那时的遐想是:条款联接器嵌在铁壳里,但联接器需要在X、Y、Z三个所在有3毫米浮动范围,且是正负3毫米。而举例富士康功绩器往里边推的时候,有几级导向。第一级是导向针,把联接器组件导入3毫米浮动空间,往内部推的过程中,不是平直插到联接器上,而是联接器上头有导向针,鼓动去时候,它会把这个联接器渐渐矫正,联接器会主动浮动来稳当功绩器位置。而线缆背板cartridge上的联接器,和功绩器上的联接器快斗争时,此时可能照旧导向至颠倒低的小吏,如0.3毫米。这个范围内,又是塑料壳体,具备导向才能。从表面上,如果各方面王人作念得很好,不应该出现这位大师讲的问题。如果有问题,可能是浮动遐想不好,或者不顺滑。
Q:基于cartridge很重,而ODM那处的功绩器亦然很重的东西,推当年的时候,是否可能导向针在第一步就照旧变形,是否还能否正确导向至背面的联接器和其贯串?
A:不太可能,这个针挺粗,另外这个针装在cartridge的联接器上,尔背面的cartridge是固定寂静的,锁螺丝锁死。而cartridge上的联接器,上头同期附带一个导向针,这个导向针很粗,它领先会插到功绩器上头的孔里。这个孔也很大,往里镇静推的时候,导向针会带着联接器渐渐经管插足孔里,是以导向针不可能弯针,那是很粗的针。因此,如果出现这样的问题,可能是浮动莫得作念得那么好。本公司作念这个浮动,差未几破耗泰半年时间,才将其优化至当今得花样,如果之前莫得作念得很好,可能出现这样的问题。
英伟达产业链图谱