T3: Tracciamento e Attivazione Trasparente per la Sovrapposizione Fine-Grana tra Calcolo e Operazioni Collettive
T3: Transparent Tracking & Triggering for Fine-grained Overlap of Compute & Collectives
January 30, 2024
Autori: Suchita Pati, Shaizeen Aga, Mahzabeen Islam, Nuwan Jayasena, Matthew D. Sinclair
cs.AI
Abstract
I modelli linguistici di grandi dimensioni fanno sempre più affidamento su tecniche distribuite per il loro addestramento e inferenza. Queste tecniche richiedono comunicazione tra dispositivi, il che può ridurre l'efficienza di scalabilità all'aumentare del numero di dispositivi. Sebbene alcune tecniche distribuite possano sovrapporsi e, quindi, nascondere questa comunicazione con calcoli indipendenti, tecniche come il Parallelismo Tensoriale (TP) serializzano intrinsecamente la comunicazione con l'esecuzione del modello. Un approccio per nascondere questa comunicazione serializzata è intervallarla in modo fine con l'operazione produttrice (dei dati comunicati). Tuttavia, questo intervallamento fine tra comunicazione e calcolo in software può essere difficile. Inoltre, come in qualsiasi esecuzione concorrente, richiede che le risorse di calcolo e memoria siano condivise tra calcolo e comunicazione, causando contesa delle risorse che riduce l'efficacia della sovrapposizione.
Per superare queste sfide, proponiamo T3, che applica una co-progettazione hardware-software per sovrapporre in modo trasparente la comunicazione serializzata minimizzando la contesa delle risorse con il calcolo. T3 fonde in modo trasparente le operazioni produttrici con la successiva comunicazione attraverso una semplice configurazione dello spazio di indirizzi di output del produttore e richiede modifiche software minime. A livello hardware, T3 aggiunge un meccanismo leggero di tracciamento e attivazione per orchestrare il calcolo e la comunicazione del produttore. Utilizza inoltre memorie potenziate per il calcolo associato alla comunicazione. Di conseguenza, T3 riduce la contesa delle risorse e sovrappone in modo efficiente la comunicazione serializzata con il calcolo. Per importanti modelli Transformer come T-NLG, T3 accelera i sottostrati pesanti di comunicazione del 30% in media geometrica (massimo 47%) e riduce il movimento dei dati del 22% in media geometrica (massimo 36%). Inoltre, i vantaggi di T3 persistono man mano che i modelli si ridimensionano: media geometrica del 29% per i sottostrati in modelli con 500 miliardi di parametri simulati, PALM e MT-NLG.
English
Large Language Models increasingly rely on distributed techniques for their
training and inference. These techniques require communication across devices
which can reduce scaling efficiency as the number of devices increases. While
some distributed techniques can overlap, and thus, hide this communication with
independent computations, techniques such as Tensor Parallelism (TP) inherently
serialize communication with model execution. One approach to hide this
serialized communication is to interleave it with the producer operation (of
the communicated data) in a fine-grained manner. However, this fine-grained
interleaving of communication and computation in software can be difficult.
Furthermore, as with any concurrent execution, it requires compute and memory
resources to be shared between computation and communication, causing resource
contention that reduces overlapping efficacy.
To overcome these challenges, we propose T3 which applies hardware-software
co-design to transparently overlap serialized communication while minimizing
resource contention with compute. T3 transparently fuses producer operations
with the subsequent communication via a simple configuration of the producer's
output address space and requires minor software changes. At the hardware
level, T3 adds a lightweight track and trigger mechanism to orchestrate the
producer's compute, and communication. It further uses compute-enhanced
memories for communication's attendant compute. As a result, T3 reduces
resource contention, and efficiently overlaps serialized communication with
computation. For important Transformer models like T-NLG, T3 speeds up
communication-heavy sublayers by 30% geomean (max 47%) and reduces data
movement by 22% geomean (max 36%). Furthermore, T3's benefits persist as models
scale: geomean 29% for sublayers in sim500-billion parameter models, PALM
and MT-NLG.