NoLoCo : Méthode d'entraînement à faible communication sans all-reduce pour les grands modèles
NoLoCo: No-all-reduce Low Communication Training Method for Large Models
June 12, 2025
Auteurs: Jari Kolehmainen, Nikolay Blagoev, John Donaghy, Oğuzhan Ersoy, Christopher Nies
cs.AI
Résumé
L'entraînement de grands modèles de langage est généralement réalisé via des méthodes d'optimisation sur des clusters contenant des dizaines de milliers d'accélérateurs, communiquant via une interconnexion à haut débit. La mise à l'échelle de ces clusters est coûteuse et peut devenir impraticable, imposant des limites sur la taille des modèles pouvant être entraînés. Plusieurs études récentes ont proposé des méthodes d'entraînement moins intensives en communication, évitant ainsi la nécessité d'un cluster de calcul hautement connecté. Ces méthodes d'entraînement à faible communication, à l'état de l'art, utilisent toujours une étape de synchronisation pour les paramètres du modèle, qui, lorsqu'elle est effectuée sur toutes les répliques du modèle, peut devenir coûteuse sur un réseau à faible bande passante.
Dans ce travail, nous proposons une nouvelle méthode d'optimisation, NoLoCo, qui ne synchronise pas explicitement tous les paramètres du modèle pendant l'entraînement et, par conséquent, ne nécessite aucune communication collective. NoLoCo synchronise implicitement les poids du modèle via une nouvelle variante de l'optimiseur de momentum de Nesterov en faisant une moyenne partielle des poids du modèle avec un autre sélectionné aléatoirement. Nous fournissons à la fois une analyse théorique de convergence pour notre optimiseur proposé ainsi que des résultats empiriques issus de l'entraînement de modèles de langage.
Nous évaluons NoLoCo sur une large gamme de nombres d'accélérateurs et de tailles de modèles, entre 125 millions et 6,8 milliards de paramètres. Notre méthode nécessite un surcoût de communication significativement moindre que l'entraînement parallèle de données entièrement partitionnées ou même la méthode d'entraînement à faible communication largement utilisée, DiLoCo. L'étape de synchronisation elle-même est estimée être un ordre de grandeur plus rapide que l'all-reduce utilisé dans DiLoCo pour quelques centaines d'accélérateurs s'entraînant sur internet. Nous n'avons également aucune communication globale bloquante qui réduit le temps d'inactivité des accélérateurs. Par rapport à DiLoCo, nous observons également une convergence jusqu'à 4% plus rapide avec une large gamme de tailles de modèles et de nombres d'accélérateurs.
English
Training large language models is generally done via optimization methods on
clusters containing tens of thousands of accelerators, communicating over a
high-bandwidth interconnect. Scaling up these clusters is expensive and can
become impractical, imposing limits on the size of models that can be trained.
Several recent studies have proposed training methods that are less
communication intensive, avoiding the need for a highly connected compute
cluster. These state-of-the-art low communication training methods still employ
a synchronization step for model parameters, which, when performed over all
model replicas, can become costly on a low-bandwidth network.
In this work, we propose a novel optimization method, NoLoCo, that does not
explicitly synchronize all model parameters during training and, as a result,
does not require any collective communication. NoLoCo implicitly synchronizes
model weights via a novel variant of the Nesterov momentum optimizer by
partially averaging model weights with a randomly selected other one. We
provide both a theoretical convergence analysis for our proposed optimizer as
well as empirical results from language model training.
We benchmark NoLoCo on a wide range of accelerator counts and model sizes,
between 125M to 6.8B parameters. Our method requires significantly less
communication overhead than fully sharded data parallel training or even widely
used low communication training method, DiLoCo. The synchronization step itself
is estimated to be one magnitude faster than the all-reduce used in DiLoCo for
few hundred accelerators training over the internet. We also do not have any
global blocking communication that reduces accelerator idling time. Compared to
DiLoCo, we also observe up to 4% faster convergence rate with wide range of
model sizes and accelerator counts.