英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

发布日期:2022-11-18 14:31    点击次数:157

英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

他来了他来了,老黄带着英伟达的最新一代GPU来了。

英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

从前巨匠猜的5nm错了,一手大惊喜,老黄间接上了台积电4nm工艺。

新卡取名H100,驳回全新Hopper架构,间接集成为了800亿个晶体管,比上一代A100足足多了260亿个。

英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

内核数量则飙到了史无前例的16896个,达到上一代A100卡的2.5倍。

浮点计算和张量焦点运算才能也随之翻了起码3倍,比喻FP32就达到了达到60万亿次/秒。

特殊留心的是,H100面向AI计算,针对Transformer搭载了优化引擎,让大模型演习速度间接 x 6。

(可算晓得5300亿参数的威震天-图灵迎面的诀要了。)

作为一款性能爆炸的全新GPU,不出意外,H100将与前辈V100、A100同样成为AI从业者心心念念的大宝物。

英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

不过不能不提,它的功耗也爆炸了,达到了史无前例的700W,重回核弹级别。

对付自研的Grace CPU,这次大会也颁布了更多细节。

没想到,老黄从库克那里学来一手1+1=2,两块CPU“粘”在一起形成为了CPU超级芯片——Grace CPU Superchip。

Grace CPU驳回最新Arm v9架构,两块总共拥有144个焦点,拥有1TB/s的内存带宽,比苹果最新M1 Ultra的800GB/s还横跨跨过一截。

英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

基于全新CPU、GPU根基硬件,这次宣布会也带来了下一代企业级AI根基设置装备摆设DXG H100、全球最快AI超算Eos。

固然,英伟达作为真实的元宇宙先驱,也少不了Omniverse上的新但愿。

下面具体来看看。

首款Hopper架构GPU,性能暴增

作为上一代GPU架构A100(安培架构)的继承者,搭载了全新Hopper架构的H100有多突飞猛进?

英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

话不多说,先上参数:

老黄可谓下血本,先是间接驳回了台积电4nm工艺,晶体管一口气集成为了800亿个。

要晓得,上一代A100还只是7nm架构,这次宣布会进去前,外界许多声响猜测老黄会用5nm制程,后果一宣布就给巨匠来了个大惊喜。

最可骇的是CUDA焦点间接飙升到了16896个,间接达到了A100的近2.5倍。(要晓得从V100到A100的时光,焦点也不过添加那末一丝丝)

这次可不克不迭感伤老黄刀法精准了。

再看浮点运算和INT8/FP16/TF32/FP64的张量运算,性能根蒂根基整个提升3倍不止,比较来看,前两代的架构降级也显得小打小闹。

这也使得H100的热功耗(TDP)间接达到了史无前例的700w,英伟达“核弹工厂”名不副实(手动狗头)。

英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

话又说归来离去,这次H100也是首款支持PCle 5.0和HBM3的GPU,数据处理惩罚速度进一步飞升——内存带宽达到了3TB/s。

这是什么见解?

老黄在宣布会上机要一笑:只需求20个H100在手,全球互联网流量我有。

总体参数细节究竟怎么,与前代A100和V100对比一下就晓得了:

英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量△图源@anandtech

值得一提的是,Hopper架构的新GPU和英伟达CPU Grace名字组在一起,就成为了闻名女性计算机科学家Grace Hopper的名字,这也被英伟达用于命名他们的超级芯片。

Grace Hopper发清楚明了世界上第一个编译器和COBOL言语,有“计算机软件工程第一夫人”之称。

演习3950亿参数大模型仅1天

固然,Hopper的新特点远不止体往常参数上。

这次,老黄特地在宣布会上侧重提到了Hopper初度装备的Transformer引擎。

嗯,专为Transformer打造,让这种模型在演习时对立精度稳固、性能提升6倍,意味着演习时光从几周膨胀至几天。

怎么表现?

往常,不管是演习1750亿参数的GPT-3 (19小时),照旧3950亿参数的Transformer大模型(21小时),H100都能将演习时光从一周膨胀到1天之内,速度晋下降达9倍。

推理性能也是大幅提升,像英伟达推出的5300亿 Megatron模型,在H100上推理时的吞吐量比A100间接横跨跨过30倍,照顾耽误下降到1秒,可以或许说是完美hold住了。

英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

不能不说,英伟达这奔忙确凿突入了Transformer阵营。

在此从前,英伟达一系列GPU优化盘算根蒂根基都是针对卷积架构举行的,激情亲切要把“I love 卷积”这几个字印在脑门上。

要怪只怪Transformer迩来实在太受迎接。(手动狗头)

固然,H100的亮点不止云云,陪同着它以及英伟达一系列芯片,随后都市引入NVIDIA NVLink第四代互连技能。

也就是说,芯片堆堆乐的效劳更高了,I/O带宽更是扩张至900GB/s。

英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

这次,老黄还侧重提到了GPU的安好性,集团简介蕴含实例之间具有断绝呵护、新GPU具有秘要计算功用等。

固然,数学计算才能也提升了。

这次H100上新的DPX指令可以或许加速静态结构,在运算门路优化和基因组学在内的一系列静态结构算法时速度提升了7倍。

据老黄介绍,H100会在今年第三季度起头供货,网友奚弄“估量也便宜不了”。

如今,H100有两个版本可选:

一个就是功率高达700W的SXM,用于高性能服务器;另外一个是实用于更主流的服务器PCIe,功耗也比上一代A100的300W多了50W。

4608块H100,打造全球最快AI超算

H100都宣布了,老黄自然不会放过任何一个搭建超级计算机的机会。

基于H100推出的最新DGX H100计算体系,与上一代“烤箱”同样,同样也是装备8块GPU。

英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

差别的是,DGX H100体系在FP8精度下达到了32 Petaflop的AI性能,比上一代DGX A100体系整整高了6倍。

各GPU之间的跟尾速度也变得更快,900GB/s的速度激情亲切上一代的1.5倍。

最关键的是,这次英伟达还在DGX H100根基上,搭建了一台Eos超级计算机,一举成为AI超算界的性能TOP 1——

光就18.4 Exaflops的AI计算性能,就比日本的“富岳”(Fugaku)超级计算机快了4倍。

这台超算装备了576个DGX H100体系,间接用了4608块H100。

即就是传统科学计算,算力也能达到275 Petaflops (富岳是442 Petaflops),跻身前5的超算是没什么成就。

英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

“拼装”CPU,跑分成了TOP1

本次GTC大会,老黄仍然“提了几嘴”超级服务器芯片Grace。

它在去年4月份的GTC大会就已经有所亮相,和事先同样,老黄默示:有望2023年可以或许起头供货,反副今年是不克不迭够碰上了。

不过,Grace的性能倒是值得一提,有了“惊人但愿”。

它被用在两个超级芯片中:

一个是Grace Hopper超级芯片,单MCM,由一个Grace CPU和一个Hopper架构的GPU形成。

一个是Grace CPU超级芯片,由两个Grace CPU形成,经由过程NVIDIA NVLink-C2C技能互连,蕴含144个Arm焦点,并有着高达1TB/s的内存带宽——带宽提升2倍的同时,能耗“只需”500w。

英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

很难不让人遥想到苹果刚发的M1 Ultra,看来片间互连技能的但愿,让“拼装”成为了芯片行业一大趋势。

英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

Grace超级芯片在SPECrate?2017_int_base基准测试中的仿照性能达到了740分,因此后DGX A100 搭载的CPU的1.5倍(460分)。

Grace超级芯片可以或许运行在全体的NVIDIA计算平台,既可作为独立的纯CPU体系,也可作为 GPU加速服务器,行使NVLink-C2C技能搭载一块至八块基于Hopper架构的GPU。

英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

(嗯,刚说完,老黄的芯片堆堆乐就堆上了。)

值得一提的是,英伟达对第三方定制芯片开放了NVLink-C2C。

它是一种超倏地的芯片到芯片、裸片到裸片的互连技能,将支持定制裸片与NVIDIA GPU、CPU、DPU、NIC 和SOC之间完成份歧的互连。

英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

大约,任地狱新掌机可以或许等候一奔忙?

连产业也要在元宇宙里搞

固然,除了上述内容之外,这次英伟达也吐露了许多与产业应用相干的案例。

而不管是自动驾驶、照旧蕴含虚拟工厂的数字孪生等场景,都与计算机衬着和仿真技能有着密不身分的纠葛。

英伟达觉得,产业上同样能经由过程在虚拟情形中仿照的要领,来添加AI演习的数据量,换而言之就是“在元宇宙里搞大演习”。

譬如,让AI智能驾驶在元宇宙里“练车”,行使仿真进去的数据搞出半其实情形,添加一些可以或许突发体系毛病的情形仿照:

英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

又譬如,搞出等比例、与现真相况中质料等参数齐全同样的“数字工厂”,在制造前先提早开工试运行,以及时排查可以或许出现成就的情形。

英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

除了数字孪生,数字资产的临蓐也是元宇宙晚期树立阶段需求侧重推敲的部份。

在这方面,英伟达推出了随时随地能在云端协作的Omniverse Cloud。

英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

最有意思的是,这次宣布会上还演示了一套AI驱动虚拟角色体系。

事实中3天,虚拟角色在元宇宙里靠强化深造苦练10年功夫。

英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

等练成一身才智,进去不管到游戏照旧动画里都是个好“措施演员”。

用它生成动画无需再绑定骨骼、k帧,用自然言语下指令即可,就像导演和真人演员同样雷同,大大膨胀开发流程。

英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

要论元宇宙基建还得看老黄啊。

Venturebeat对此评价称,“这些案例给元宇宙赋予了真实的意思”。

那末,你看好英伟达的omniverse前景吗?

更多轮廓,可以或许戳完备讲演地点(带中字哦):https://www.nvidia.cn/gtc-global/keynote/?nvid=nv-int-bnr-223538&sfdcid=Internal_banners

参考链接:

[1]https://www.anandtech.com/show/17327/nvidia-hopper-gpu-architecture-and-h100-accelerator-announced

[2]https://venturebeat.com/2022/03/22/nvidia-gtc-how-to-build-the-industrial-metaverse/



相关资讯



Powered by 世界杯welcome(塘沽区)官网中心 @2013-2022 RSS地图 HTML地图