Streaming DiLoCo mit überlappenden Kommunikationen: Auf dem Weg zu einem verteilten Gratisessen

papers.abstract

Das Training großer Sprachmodelle (LLMs) wird in der Regel auf eine große Anzahl von Beschleunigern verteilt, um die Trainingszeit zu verkürzen. Da interne Zustände und Parametergradienten bei jedem einzelnen Gradientenschritt ausgetauscht werden müssen, müssen alle Geräte an einem Ort mit latenzarmen Hochgeschwindigkeitskommunikationsverbindungen platziert werden, um den erforderlichen hohen Datenaustausch zu unterstützen. In letzter Zeit haben verteilte Algorithmen wie DiLoCo diese Co-Lokationsbeschränkung gelockert: Beschleuniger können in "Arbeiter" gruppiert werden, wobei Synchronisationen zwischen den Arbeitern nur selten erfolgen. Dies bedeutet wiederum, dass die Arbeiter sich eine Verbindung mit geringerer Bandbreite leisten können, ohne die Lernqualität zu beeinträchtigen. Bei diesen Methoden erfordert die Kommunikation zwischen den Arbeitern jedoch immer noch dieselbe Spitzenbandbreite wie zuvor, da die Synchronisationen erfordern, dass alle Parameter zwischen allen Arbeitern ausgetauscht werden. In diesem Papier verbessern wir DiLoCo auf drei Arten. Erstens synchronisieren wir nur Teilgruppen von Parametern nacheinander, anstatt alle auf einmal, was die Spitzenbandbreite erheblich reduziert. Zweitens erlauben wir den Arbeitern, das Training fortzusetzen, während sie synchronisieren, was die Wanduhrzeit verkürzt. Drittens quantisieren wir die von den Arbeitern ausgetauschten Daten, was die Bandbreite zwischen den Arbeitern weiter reduziert. Durch die richtige Kombination dieser Modifikationen zeigen wir experimentell, dass wir das Training von Milliardenskalenparametern verteilen und eine ähnliche Qualität wie zuvor erreichen können, wobei jedoch die erforderliche Bandbreite um zwei Größenordnungen reduziert wird.

English

Training of large language models (LLMs) is typically distributed across a large number of accelerators to reduce training time. Since internal states and parameter gradients need to be exchanged at each and every single gradient step, all devices need to be co-located using low-latency high-bandwidth communication links to support the required high volume of exchanged bits. Recently, distributed algorithms like DiLoCo have relaxed such co-location constraint: accelerators can be grouped into ``workers'', where synchronizations between workers only occur infrequently. This in turn means that workers can afford being connected by lower bandwidth communication links without affecting learning quality. However, in these methods, communication across workers still requires the same peak bandwidth as before, as the synchronizations require all parameters to be exchanged across all workers. In this paper, we improve DiLoCo in three ways. First, we synchronize only subsets of parameters in sequence, rather than all at once, which greatly reduces peak bandwidth. Second, we allow workers to continue training while synchronizing, which decreases wall clock time. Third, we quantize the data exchanged by workers, which further reduces bandwidth across workers. By properly combining these modifications, we show experimentally that we can distribute training of billion-scale parameters and reach similar quality as before, but reducing required bandwidth by two orders of magnitude.

Streaming DiLoCo mit überlappenden Kommunikationen: Auf dem Weg zu einem verteilten Gratisessen

Streaming DiLoCo with overlapping communication: Towards a Distributed Free Lunch

papers.abstract

Support