DeepSpeed Ulysses: Ottimizzazioni di sistema per abilitare l'addestramento di modelli Transformer con sequenze estremamente lunghe

Abstract

Il calcolo in un tipico modello linguistico di grandi dimensioni (LLM) basato su Transformer può essere caratterizzato da dimensione del batch, dimensione nascosta, numero di livelli e lunghezza della sequenza. Fino ad ora, i lavori di sistema per accelerare l'addestramento degli LLM si sono concentrati sui primi tre aspetti: parallelismo dei dati per la dimensione del batch, parallelismo tensoriale per la dimensione nascosta e parallelismo pipeline per la profondità del modello o i livelli. Queste forme di parallelismo ampiamente studiate non sono mirate o ottimizzate per modelli Transformer con sequenze lunghe. Date le esigenze pratiche delle applicazioni per LLM con sequenze lunghe, si sta ridestando l'attenzione sul parallelismo delle sequenze. Tuttavia, i lavori esistenti sul parallelismo delle sequenze sono limitati da inefficienze di memoria-comunicazione, che ne riducono la scalabilità per modelli di grandi dimensioni con sequenze lunghe. In questo lavoro, introduciamo DeepSpeed-Ulysses, una metodologia innovativa, portabile ed efficace per abilitare un addestramento di LLM altamente efficiente e scalabile con lunghezze di sequenza estremamente elevate. DeepSpeed-Ulysses, nel suo nucleo, partiziona i dati di input lungo la dimensione della sequenza e utilizza una comunicazione collettiva all-to-all efficiente per il calcolo dell'attenzione. L'analisi teorica della comunicazione mostra che, mentre altri metodi comportano un sovraccarico di comunicazione all'aumentare della lunghezza della sequenza, DeepSpeed-Ulysses mantiene un volume di comunicazione costante quando la lunghezza della sequenza e i dispositivi di calcolo vengono aumentati proporzionalmente. Inoltre, le valutazioni sperimentali dimostrano che DeepSpeed-Ulysses addestra 2,5 volte più velocemente con una lunghezza di sequenza 4 volte maggiore rispetto al metodo esistente di riferimento SOTA.

English

Computation in a typical Transformer-based large language model (LLM) can be characterized by batch size, hidden dimension, number of layers, and sequence length. Until now, system works for accelerating LLM training have focused on the first three dimensions: data parallelism for batch size, tensor parallelism for hidden size and pipeline parallelism for model depth or layers. These widely studied forms of parallelism are not targeted or optimized for long sequence Transformer models. Given practical application needs for long sequence LLM, renewed attentions are being drawn to sequence parallelism. However, existing works in sequence parallelism are constrained by memory-communication inefficiency, limiting their scalability to long sequence large models. In this work, we introduce DeepSpeed-Ulysses, a novel, portable and effective methodology for enabling highly efficient and scalable LLM training with extremely long sequence length. DeepSpeed-Ulysses at its core partitions input data along the sequence dimension and employs an efficient all-to-all collective communication for attention computation. Theoretical communication analysis shows that whereas other methods incur communication overhead as sequence length increases, DeepSpeed-Ulysses maintains constant communication volume when sequence length and compute devices are increased proportionally. Furthermore, experimental evaluations show that DeepSpeed-Ulysses trains 2.5X faster with 4X longer sequence length than the existing method SOTA baseline.

DeepSpeed Ulysses: Ottimizzazioni di sistema per abilitare l'addestramento di modelli Transformer con sequenze estremamente lunghe

DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models

Abstract

Support