T3: Tracciamento e Attivazione Trasparente per la Sovrapposizione Fine-Grana tra Calcolo e Operazioni Collettive

Abstract

I modelli linguistici di grandi dimensioni fanno sempre più affidamento su tecniche distribuite per il loro addestramento e inferenza. Queste tecniche richiedono comunicazione tra dispositivi, il che può ridurre l'efficienza di scalabilità all'aumentare del numero di dispositivi. Sebbene alcune tecniche distribuite possano sovrapporsi e, quindi, nascondere questa comunicazione con calcoli indipendenti, tecniche come il Parallelismo Tensoriale (TP) serializzano intrinsecamente la comunicazione con l'esecuzione del modello. Un approccio per nascondere questa comunicazione serializzata è intervallarla in modo fine con l'operazione produttrice (dei dati comunicati). Tuttavia, questo intervallamento fine tra comunicazione e calcolo in software può essere difficile. Inoltre, come in qualsiasi esecuzione concorrente, richiede che le risorse di calcolo e memoria siano condivise tra calcolo e comunicazione, causando contesa delle risorse che riduce l'efficacia della sovrapposizione. Per superare queste sfide, proponiamo T3, che applica una co-progettazione hardware-software per sovrapporre in modo trasparente la comunicazione serializzata minimizzando la contesa delle risorse con il calcolo. T3 fonde in modo trasparente le operazioni produttrici con la successiva comunicazione attraverso una semplice configurazione dello spazio di indirizzi di output del produttore e richiede modifiche software minime. A livello hardware, T3 aggiunge un meccanismo leggero di tracciamento e attivazione per orchestrare il calcolo e la comunicazione del produttore. Utilizza inoltre memorie potenziate per il calcolo associato alla comunicazione. Di conseguenza, T3 riduce la contesa delle risorse e sovrappone in modo efficiente la comunicazione serializzata con il calcolo. Per importanti modelli Transformer come T-NLG, T3 accelera i sottostrati pesanti di comunicazione del 30% in media geometrica (massimo 47%) e riduce il movimento dei dati del 22% in media geometrica (massimo 36%). Inoltre, i vantaggi di T3 persistono man mano che i modelli si ridimensionano: media geometrica del 29% per i sottostrati in modelli con 500 miliardi di parametri simulati, PALM e MT-NLG.

English

Large Language Models increasingly rely on distributed techniques for their training and inference. These techniques require communication across devices which can reduce scaling efficiency as the number of devices increases. While some distributed techniques can overlap, and thus, hide this communication with independent computations, techniques such as Tensor Parallelism (TP) inherently serialize communication with model execution. One approach to hide this serialized communication is to interleave it with the producer operation (of the communicated data) in a fine-grained manner. However, this fine-grained interleaving of communication and computation in software can be difficult. Furthermore, as with any concurrent execution, it requires compute and memory resources to be shared between computation and communication, causing resource contention that reduces overlapping efficacy. To overcome these challenges, we propose T3 which applies hardware-software co-design to transparently overlap serialized communication while minimizing resource contention with compute. T3 transparently fuses producer operations with the subsequent communication via a simple configuration of the producer's output address space and requires minor software changes. At the hardware level, T3 adds a lightweight track and trigger mechanism to orchestrate the producer's compute, and communication. It further uses compute-enhanced memories for communication's attendant compute. As a result, T3 reduces resource contention, and efficiently overlaps serialized communication with computation. For important Transformer models like T-NLG, T3 speeds up communication-heavy sublayers by 30% geomean (max 47%) and reduces data movement by 22% geomean (max 36%). Furthermore, T3's benefits persist as models scale: geomean 29% for sublayers in sim500-billion parameter models, PALM and MT-NLG.

T3: Tracciamento e Attivazione Trasparente per la Sovrapposizione Fine-Grana tra Calcolo e Operazioni Collettive

T3: Transparent Tracking & Triggering for Fine-grained Overlap of Compute & Collectives

Abstract

Support