T3: Transparante Tracking & Triggering voor Fijnmazige Overlapping van Berekeningen & Collectieve Operaties
T3: Transparent Tracking & Triggering for Fine-grained Overlap of Compute & Collectives
January 30, 2024
Auteurs: Suchita Pati, Shaizeen Aga, Mahzabeen Islam, Nuwan Jayasena, Matthew D. Sinclair
cs.AI
Samenvatting
Grote Taalmodellen vertrouwen steeds meer op gedistribueerde technieken voor hun training en inferentie. Deze technieken vereisen communicatie tussen apparaten, wat de schaalbaarheidsefficiëntie kan verminderen naarmate het aantal apparaten toeneemt. Hoewel sommige gedistribueerde technieken elkaar kunnen overlappen en zo deze communicatie kunnen verbergen met onafhankelijke berekeningen, zijn technieken zoals Tensor Parallelisme (TP) inherent gebonden aan seriële communicatie met modeluitvoering. Een benadering om deze geserialiseerde communicatie te verbergen, is deze op een fijnmazige manier te verweven met de producentoperatie (van de gecommuniceerde gegevens). Deze fijnmazige verweving van communicatie en berekening in software kan echter moeilijk zijn. Bovendien vereist het, zoals bij elke gelijktijdige uitvoering, dat reken- en geheugenbronnen worden gedeeld tussen berekening en communicatie, wat resulteert in resourcecontentie die de effectiviteit van overlapping vermindert.
Om deze uitdagingen te overwinnen, stellen we T3 voor, dat hardware-software co-design toepast om geserialiseerde communicatie transparant te overlappen terwijl resourcecontentie met berekening wordt geminimaliseerd. T3 voegt producentoperaties transparant samen met de daaropvolgende communicatie via een eenvoudige configuratie van de uitvoeradresruimte van de producent en vereist minimale softwarewijzigingen. Op hardwareniveau voegt T3 een lichtgewicht track- en triggermechanisme toe om de berekening en communicatie van de producent te coördineren. Het maakt verder gebruik van rekenverbeterde geheugens voor de bijbehorende berekening van communicatie. Hierdoor vermindert T3 resourcecontentie en overlapt het geserialiseerde communicatie efficiënt met berekening. Voor belangrijke Transformermodellen zoals T-NLG versnelt T3 communicatie-intensieve sublagen met 30% geometrisch gemiddelde (maximaal 47%) en vermindert het gegevensverplaatsing met 22% geometrisch gemiddelde (maximaal 36%). Bovendien blijven de voordelen van T3 bestaan naarmate modellen schalen: geometrisch gemiddeld 29% voor sublagen in sim500-miljard parameter modellen, PALM en MT-NLG.
English
Large Language Models increasingly rely on distributed techniques for their
training and inference. These techniques require communication across devices
which can reduce scaling efficiency as the number of devices increases. While
some distributed techniques can overlap, and thus, hide this communication with
independent computations, techniques such as Tensor Parallelism (TP) inherently
serialize communication with model execution. One approach to hide this
serialized communication is to interleave it with the producer operation (of
the communicated data) in a fine-grained manner. However, this fine-grained
interleaving of communication and computation in software can be difficult.
Furthermore, as with any concurrent execution, it requires compute and memory
resources to be shared between computation and communication, causing resource
contention that reduces overlapping efficacy.
To overcome these challenges, we propose T3 which applies hardware-software
co-design to transparently overlap serialized communication while minimizing
resource contention with compute. T3 transparently fuses producer operations
with the subsequent communication via a simple configuration of the producer's
output address space and requires minor software changes. At the hardware
level, T3 adds a lightweight track and trigger mechanism to orchestrate the
producer's compute, and communication. It further uses compute-enhanced
memories for communication's attendant compute. As a result, T3 reduces
resource contention, and efficiently overlaps serialized communication with
computation. For important Transformer models like T-NLG, T3 speeds up
communication-heavy sublayers by 30% geomean (max 47%) and reduces data
movement by 22% geomean (max 36%). Furthermore, T3's benefits persist as models
scale: geomean 29% for sublayers in sim500-billion parameter models, PALM
and MT-NLG.