ChatPaper.aiChatPaper

T3: Transparante Tracking & Triggering voor Fijnmazige Overlapping van Berekeningen & Collectieve Operaties

T3: Transparent Tracking & Triggering for Fine-grained Overlap of Compute & Collectives

January 30, 2024
Auteurs: Suchita Pati, Shaizeen Aga, Mahzabeen Islam, Nuwan Jayasena, Matthew D. Sinclair
cs.AI

Samenvatting

Grote Taalmodellen vertrouwen steeds meer op gedistribueerde technieken voor hun training en inferentie. Deze technieken vereisen communicatie tussen apparaten, wat de schaalbaarheidsefficiëntie kan verminderen naarmate het aantal apparaten toeneemt. Hoewel sommige gedistribueerde technieken elkaar kunnen overlappen en zo deze communicatie kunnen verbergen met onafhankelijke berekeningen, zijn technieken zoals Tensor Parallelisme (TP) inherent gebonden aan seriële communicatie met modeluitvoering. Een benadering om deze geserialiseerde communicatie te verbergen, is deze op een fijnmazige manier te verweven met de producentoperatie (van de gecommuniceerde gegevens). Deze fijnmazige verweving van communicatie en berekening in software kan echter moeilijk zijn. Bovendien vereist het, zoals bij elke gelijktijdige uitvoering, dat reken- en geheugenbronnen worden gedeeld tussen berekening en communicatie, wat resulteert in resourcecontentie die de effectiviteit van overlapping vermindert. Om deze uitdagingen te overwinnen, stellen we T3 voor, dat hardware-software co-design toepast om geserialiseerde communicatie transparant te overlappen terwijl resourcecontentie met berekening wordt geminimaliseerd. T3 voegt producentoperaties transparant samen met de daaropvolgende communicatie via een eenvoudige configuratie van de uitvoeradresruimte van de producent en vereist minimale softwarewijzigingen. Op hardwareniveau voegt T3 een lichtgewicht track- en triggermechanisme toe om de berekening en communicatie van de producent te coördineren. Het maakt verder gebruik van rekenverbeterde geheugens voor de bijbehorende berekening van communicatie. Hierdoor vermindert T3 resourcecontentie en overlapt het geserialiseerde communicatie efficiënt met berekening. Voor belangrijke Transformermodellen zoals T-NLG versnelt T3 communicatie-intensieve sublagen met 30% geometrisch gemiddelde (maximaal 47%) en vermindert het gegevensverplaatsing met 22% geometrisch gemiddelde (maximaal 36%). Bovendien blijven de voordelen van T3 bestaan naarmate modellen schalen: geometrisch gemiddeld 29% voor sublagen in sim500-miljard parameter modellen, PALM en MT-NLG.
English
Large Language Models increasingly rely on distributed techniques for their training and inference. These techniques require communication across devices which can reduce scaling efficiency as the number of devices increases. While some distributed techniques can overlap, and thus, hide this communication with independent computations, techniques such as Tensor Parallelism (TP) inherently serialize communication with model execution. One approach to hide this serialized communication is to interleave it with the producer operation (of the communicated data) in a fine-grained manner. However, this fine-grained interleaving of communication and computation in software can be difficult. Furthermore, as with any concurrent execution, it requires compute and memory resources to be shared between computation and communication, causing resource contention that reduces overlapping efficacy. To overcome these challenges, we propose T3 which applies hardware-software co-design to transparently overlap serialized communication while minimizing resource contention with compute. T3 transparently fuses producer operations with the subsequent communication via a simple configuration of the producer's output address space and requires minor software changes. At the hardware level, T3 adds a lightweight track and trigger mechanism to orchestrate the producer's compute, and communication. It further uses compute-enhanced memories for communication's attendant compute. As a result, T3 reduces resource contention, and efficiently overlaps serialized communication with computation. For important Transformer models like T-NLG, T3 speeds up communication-heavy sublayers by 30% geomean (max 47%) and reduces data movement by 22% geomean (max 36%). Furthermore, T3's benefits persist as models scale: geomean 29% for sublayers in sim500-billion parameter models, PALM and MT-NLG.
PDF51December 15, 2024