NoLoCo : Méthode d'entraînement à faible communication sans all-reduce pour les grands modèles

papers.abstract

L'entraînement de grands modèles de langage est généralement réalisé via des méthodes d'optimisation sur des clusters contenant des dizaines de milliers d'accélérateurs, communiquant via une interconnexion à haut débit. La mise à l'échelle de ces clusters est coûteuse et peut devenir impraticable, imposant des limites sur la taille des modèles pouvant être entraînés. Plusieurs études récentes ont proposé des méthodes d'entraînement moins intensives en communication, évitant ainsi la nécessité d'un cluster de calcul hautement connecté. Ces méthodes d'entraînement à faible communication, à l'état de l'art, utilisent toujours une étape de synchronisation pour les paramètres du modèle, qui, lorsqu'elle est effectuée sur toutes les répliques du modèle, peut devenir coûteuse sur un réseau à faible bande passante. Dans ce travail, nous proposons une nouvelle méthode d'optimisation, NoLoCo, qui ne synchronise pas explicitement tous les paramètres du modèle pendant l'entraînement et, par conséquent, ne nécessite aucune communication collective. NoLoCo synchronise implicitement les poids du modèle via une nouvelle variante de l'optimiseur de momentum de Nesterov en faisant une moyenne partielle des poids du modèle avec un autre sélectionné aléatoirement. Nous fournissons à la fois une analyse théorique de convergence pour notre optimiseur proposé ainsi que des résultats empiriques issus de l'entraînement de modèles de langage. Nous évaluons NoLoCo sur une large gamme de nombres d'accélérateurs et de tailles de modèles, entre 125 millions et 6,8 milliards de paramètres. Notre méthode nécessite un surcoût de communication significativement moindre que l'entraînement parallèle de données entièrement partitionnées ou même la méthode d'entraînement à faible communication largement utilisée, DiLoCo. L'étape de synchronisation elle-même est estimée être un ordre de grandeur plus rapide que l'all-reduce utilisé dans DiLoCo pour quelques centaines d'accélérateurs s'entraînant sur internet. Nous n'avons également aucune communication globale bloquante qui réduit le temps d'inactivité des accélérateurs. Par rapport à DiLoCo, nous observons également une convergence jusqu'à 4% plus rapide avec une large gamme de tailles de modèles et de nombres d'accélérateurs.

English

Training large language models is generally done via optimization methods on clusters containing tens of thousands of accelerators, communicating over a high-bandwidth interconnect. Scaling up these clusters is expensive and can become impractical, imposing limits on the size of models that can be trained. Several recent studies have proposed training methods that are less communication intensive, avoiding the need for a highly connected compute cluster. These state-of-the-art low communication training methods still employ a synchronization step for model parameters, which, when performed over all model replicas, can become costly on a low-bandwidth network. In this work, we propose a novel optimization method, NoLoCo, that does not explicitly synchronize all model parameters during training and, as a result, does not require any collective communication. NoLoCo implicitly synchronizes model weights via a novel variant of the Nesterov momentum optimizer by partially averaging model weights with a randomly selected other one. We provide both a theoretical convergence analysis for our proposed optimizer as well as empirical results from language model training. We benchmark NoLoCo on a wide range of accelerator counts and model sizes, between 125M to 6.8B parameters. Our method requires significantly less communication overhead than fully sharded data parallel training or even widely used low communication training method, DiLoCo. The synchronization step itself is estimated to be one magnitude faster than the all-reduce used in DiLoCo for few hundred accelerators training over the internet. We also do not have any global blocking communication that reduces accelerator idling time. Compared to DiLoCo, we also observe up to 4% faster convergence rate with wide range of model sizes and accelerator counts.

NoLoCo : Méthode d'entraînement à faible communication sans all-reduce pour les grands modèles

NoLoCo: No-all-reduce Low Communication Training Method for Large Models

papers.abstract

Support