DiPaCo: Gedistribueerde Padcompositie
DiPaCo: Distributed Path Composition
March 15, 2024
Auteurs: Arthur Douillard, Qixuan Feng, Andrei A. Rusu, Adhiguna Kuncoro, Yani Donchev, Rachita Chhaparia, Ionel Gog, Marc'Aurelio Ranzato, Jiajun Shen, Arthur Szlam
cs.AI
Samenvatting
Vooruitgang in machine learning (ML) is aangedreven door het opschalen van neurale netwerkmodellen. Deze schaalvergroting is mogelijk gemaakt door steeds indrukwekkender technische prestaties, die nodig zijn voor ML-benaderingen die een hoge bandbreedtecommunicatie vereisen tussen parallel werkende apparaten. In dit werk stellen we een gecoördineerde modulaire architectuur en trainingsbenadering voor ML-modellen voor, genaamd DIstributed PAth COmposition (DiPaCo). Tijdens de training verdeelt DiPaCo de berekening over paden door een set gedeelde modules. Samen met een Local-SGD-geïnspireerde optimalisatie (DiLoCo) die modules synchroon houdt met sterk verminderde communicatie, vergemakkelijkt onze aanpak training over slecht verbonden en heterogene werkers, met een ontwerp dat robuustheid garandeert tegen werkerstoringen en onderbrekingen. Tijdens inferentie hoeft slechts één pad uitgevoerd te worden voor elke invoer, zonder de noodzaak van enige modelcompressie. We beschouwen deze aanpak als een eerste prototype naar een nieuw paradigma van grootschalig leren, een dat minder synchroon en meer modulair is. Onze experimenten op de veelgebruikte C4-benchmark laten zien dat, voor hetzelfde aantal trainingsstappen maar minder kloktijd, DiPaCo de prestaties overtreft van een dicht transformer-taalmodel met 1 miljard parameters door een van de 256 mogelijke paden te kiezen, elk met een grootte van 150 miljoen parameters.
English
Progress in machine learning (ML) has been fueled by scaling neural network
models. This scaling has been enabled by ever more heroic feats of engineering,
necessary for accommodating ML approaches that require high bandwidth
communication between devices working in parallel. In this work, we propose a
co-designed modular architecture and training approach for ML models, dubbed
DIstributed PAth COmposition (DiPaCo). During training, DiPaCo distributes
computation by paths through a set of shared modules. Together with a Local-SGD
inspired optimization (DiLoCo) that keeps modules in sync with drastically
reduced communication, Our approach facilitates training across poorly
connected and heterogeneous workers, with a design that ensures robustness to
worker failures and preemptions. At inference time, only a single path needs to
be executed for each input, without the need for any model compression. We
consider this approach as a first prototype towards a new paradigm of
large-scale learning, one that is less synchronous and more modular. Our
experiments on the widely used C4 benchmark show that, for the same amount of
training steps but less wall-clock time, DiPaCo exceeds the performance of a 1
billion-parameter dense transformer language model by choosing one of 256
possible paths, each with a size of 150 million parameters.