ChatPaper.aiChatPaper

T3: Rastreamento e Disparo Transparentes para Sobreposição de Cálculo e Coletivas em Nível Fino

T3: Transparent Tracking & Triggering for Fine-grained Overlap of Compute & Collectives

January 30, 2024
Autores: Suchita Pati, Shaizeen Aga, Mahzabeen Islam, Nuwan Jayasena, Matthew D. Sinclair
cs.AI

Resumo

Os Grandes Modelos de Linguagem (LLMs) dependem cada vez mais de técnicas distribuídas para seu treinamento e inferência. Essas técnicas exigem comunicação entre dispositivos, o que pode reduzir a eficiência de escalonamento à medida que o número de dispositivos aumenta. Embora algumas técnicas distribuídas possam se sobrepor e, assim, ocultar essa comunicação com cálculos independentes, técnicas como o Paralelismo de Tensores (TP) inerentemente serializam a comunicação com a execução do modelo. Uma abordagem para ocultar essa comunicação serializada é intercalá-la de forma granular com a operação produtora (dos dados comunicados). No entanto, essa intercalação granular de comunicação e computação em software pode ser difícil. Além disso, como em qualquer execução concorrente, exige que recursos de computação e memória sejam compartilhados entre computação e comunicação, causando contenção de recursos que reduz a eficácia da sobreposição. Para superar esses desafios, propomos o T3, que aplica co-design hardware-software para sobrepor transparentemente a comunicação serializada enquanto minimiza a contenção de recursos com a computação. O T3 funde transparentemente as operações produtoras com a comunicação subsequente por meio de uma configuração simples do espaço de endereço de saída do produtor e requer alterações mínimas no software. No nível de hardware, o T3 adiciona um mecanismo leve de rastreamento e acionamento para orquestrar a computação e a comunicação do produtor. Ele ainda utiliza memórias aprimoradas para computação para os cálculos associados à comunicação. Como resultado, o T3 reduz a contenção de recursos e sobrepõe eficientemente a comunicação serializada com a computação. Para modelos importantes de Transformers, como o T-NLG, o T3 acelera as subcamadas com alta carga de comunicação em 30% (média geométrica, máximo de 47%) e reduz o movimento de dados em 22% (média geométrica, máximo de 36%). Além disso, os benefícios do T3 persistem à medida que os modelos escalam: média geométrica de 29% para subcamadas em modelos com 500 bilhões de parâmetros simulados, como PALM e MT-NLG.
English
Large Language Models increasingly rely on distributed techniques for their training and inference. These techniques require communication across devices which can reduce scaling efficiency as the number of devices increases. While some distributed techniques can overlap, and thus, hide this communication with independent computations, techniques such as Tensor Parallelism (TP) inherently serialize communication with model execution. One approach to hide this serialized communication is to interleave it with the producer operation (of the communicated data) in a fine-grained manner. However, this fine-grained interleaving of communication and computation in software can be difficult. Furthermore, as with any concurrent execution, it requires compute and memory resources to be shared between computation and communication, causing resource contention that reduces overlapping efficacy. To overcome these challenges, we propose T3 which applies hardware-software co-design to transparently overlap serialized communication while minimizing resource contention with compute. T3 transparently fuses producer operations with the subsequent communication via a simple configuration of the producer's output address space and requires minor software changes. At the hardware level, T3 adds a lightweight track and trigger mechanism to orchestrate the producer's compute, and communication. It further uses compute-enhanced memories for communication's attendant compute. As a result, T3 reduces resource contention, and efficiently overlaps serialized communication with computation. For important Transformer models like T-NLG, T3 speeds up communication-heavy sublayers by 30% geomean (max 47%) and reduces data movement by 22% geomean (max 36%). Furthermore, T3's benefits persist as models scale: geomean 29% for sublayers in sim500-billion parameter models, PALM and MT-NLG.
PDF51December 15, 2024