硬件和软件的突破_工作流管理_工作流软件_深圳市和丰软件技术有限公司【知名】

13544009511
我们做过什么

硬件和软件的突破

发布日期:2021-01-10 浏览次数:

任何超过13亿参数的模型都无法装入单张GPU(甚至一个具有32GB内存的电脑),因此该模型本身必须在多个GPU之间并行化或分解。我们利用了几项硬件和软件的突破来训练T-NLG:

 

1.我们利用NVIDIADGX-2硬件设置和InfiniBand连接,使GPU之间的通信比以前更快。

 

2. 在NVIDIAMegatron-LM框架上,我们使用张量切片技术在四张NVIDIAV100 GPU上分割模型。

 

3. DeepSpeed with ZeRO库使我们可以降低模型并行度(从16降低到4),将每个节点的批处理大小增加4倍,并将训练时间减少3倍。DeepSpeed可以使用更少的GPU训练更大的模型,从而提高效率,并且仅使用256个NVIDIA GPU就可以实现512 batchsize的训练,而单独使用Megatron-LM则需要1024个NVIDIA GPU。DeepSpeed与PyTorch兼容。

最终的T-NLG模型具有78个Transformer层,其隐藏层的节点大小为4256,并包含28个注意力头。为了使结果可与Megatron-LM相媲美,我们使用了与Megatron-LM相同的超参数对模型进行了预训练,

我们还比较了预训练T-NLG模型在标准语言任务(例如WikiText-103(越低越好)和LAMBADA下一个单词预测准确性(越高越好))上的性能。下表显示,我们在LAMBADA和WikiText-103上都达到了最新的技术水平。Megatron-LM是NVIDIA Megatron模型公开发布的结果。

Open AI使用了额外的处理(停用词过滤)以实现比单独实现模型更高的数量。Megatron和T-NLG均未使用这种停用词过滤技术。

 

下面图1显示了与Megatron-LM相比,T-NLG在验证perplexity方面的表现。

图1:训练期间Megatron-8B参数模型(橙色线)与T-NLG 17B模型在验证困惑度方面的比较(蓝线和绿线)。虚线表示当前SOTA技术模型达到的最低验证损失。图中从蓝色到绿色的过渡表示T-NLG在性能上超过了SOTA水平。

 

粤公网安备 44030502004911号