DiPaCo: Composizione Distribuita di Percorsi

Abstract

I progressi nel machine learning (ML) sono stati alimentati dal ridimensionamento dei modelli di reti neurali. Questo ridimensionamento è stato reso possibile da imprese ingegneristiche sempre più audaci, necessarie per supportare approcci di ML che richiedono una comunicazione ad alta larghezza di banda tra dispositivi che lavorano in parallelo. In questo lavoro, proponiamo un'architettura modulare co-progettata e un approccio di addestramento per modelli di ML, denominato DIstributed PAth COmposition (DiPaCo). Durante l'addestramento, DiPaCo distribuisce il calcolo attraverso percorsi in un insieme di moduli condivisi. Insieme a un'ottimizzazione ispirata a Local-SGD (DiLoCo) che mantiene i moduli sincronizzati con una comunicazione drasticamente ridotta, il nostro approccio facilita l'addestramento su lavoratori scarsamente connessi ed eterogenei, con un design che garantisce robustezza ai guasti e alle preemption dei lavoratori. Al momento dell'inferenza, è necessario eseguire un solo percorso per ogni input, senza la necessità di alcuna compressione del modello. Consideriamo questo approccio come un primo prototipo verso un nuovo paradigma di apprendimento su larga scala, meno sincrono e più modulare. I nostri esperimenti sul benchmark ampiamente utilizzato C4 mostrano che, per lo stesso numero di passi di addestramento ma con meno tempo di clock, DiPaCo supera le prestazioni di un modello linguistico trasformatore denso da 1 miliardo di parametri scegliendo uno dei 256 percorsi possibili, ciascuno con una dimensione di 150 milioni di parametri.

English

Progress in machine learning (ML) has been fueled by scaling neural network models. This scaling has been enabled by ever more heroic feats of engineering, necessary for accommodating ML approaches that require high bandwidth communication between devices working in parallel. In this work, we propose a co-designed modular architecture and training approach for ML models, dubbed DIstributed PAth COmposition (DiPaCo). During training, DiPaCo distributes computation by paths through a set of shared modules. Together with a Local-SGD inspired optimization (DiLoCo) that keeps modules in sync with drastically reduced communication, Our approach facilitates training across poorly connected and heterogeneous workers, with a design that ensures robustness to worker failures and preemptions. At inference time, only a single path needs to be executed for each input, without the need for any model compression. We consider this approach as a first prototype towards a new paradigm of large-scale learning, one that is less synchronous and more modular. Our experiments on the widely used C4 benchmark show that, for the same amount of training steps but less wall-clock time, DiPaCo exceeds the performance of a 1 billion-parameter dense transformer language model by choosing one of 256 possible paths, each with a size of 150 million parameters.

DiPaCo: Composizione Distribuita di Percorsi

DiPaCo: Distributed Path Composition

Abstract

Support