MegaTrain: Vollpräzisionstraining von großen Sprachmodellen mit über 100 Milliarden Parametern auf einer einzelnen GPU

Zusammenfassung

Wir stellen MegaTrain vor, ein speicherzentriertes System, das das Training großer Sprachmodelle mit 100B+ Parametern in voller Präzision auf einer einzelnen GPU effizient ermöglicht. Im Gegensatz zu herkömmlichen GPU-zentrierten Systemen speichert MegaTrain Parameter und Optimierer-Zustände im Host-Speicher (CPU-Arbeitsspeicher) und behandelt GPUs als transiente Recheneinheiten. Für jede Schicht streamen wir Parameter herein und berechnen Gradienten heraus, wodurch der persistente Gerätestatus minimiert wird. Um den CPU-GPU-Bandbreitenengpass zu bekämpfen, setzen wir zwei Schlüsseloptimierungen ein. 1) Wir führen eine gepipelinte, doppelt gepufferte Ausführungsengine ein, die das Vorabrufen von Parametern, Berechnungen und das Auslagern von Gradienten über mehrere CUDA-Streams hinweg überlappt und so eine kontinuierliche GPU-Ausführung ermöglicht. 2) Wir ersetzen persistente Autograd-Graphen durch zustandslose Schichtvorlagen, die Gewichte dynamisch binden, während sie hereingestreamt werden, was persistente Graph-Metadaten eliminiert und gleichzeitig Flexibilität bei der Planung bietet. Auf einer einzelnen H200-GPU mit 1,5 TB Host-Speicher trainiert MegaTrain zuverlässig Modelle mit bis zu 120B Parametern. Es erreicht auch einen 1,84-fachen Trainingsdurchsatz gegenüber DeepSpeed ZeRO-3 mit CPU-Auslagerung beim Training von 14B-Modellen. MegaTrain ermöglicht zudem das Training von 7B-Modellen mit einem Kontext von 512k Tokens auf einem einzelnen GH200.

English

We present MegaTrain, a memory-centric system that efficiently trains 100B+ parameter large language models at full precision on a single GPU. Unlike traditional GPU-centric systems, MegaTrain stores parameters and optimizer states in host memory (CPU memory) and treats GPUs as transient compute engines. For each layer, we stream parameters in and compute gradients out, minimizing persistent device state. To battle the CPU-GPU bandwidth bottleneck, we adopt two key optimizations. 1) We introduce a pipelined double-buffered execution engine that overlaps parameter prefetching, computation, and gradient offloading across multiple CUDA streams, enabling continuous GPU execution. 2) We replace persistent autograd graphs with stateless layer templates, binding weights dynamically as they stream in, eliminating persistent graph metadata while providing flexibility in scheduling. On a single H200 GPU with 1.5TB host memory, MegaTrain reliably trains models up to 120B parameters. It also achieves 1.84times the training throughput of DeepSpeed ZeRO-3 with CPU offloading when training 14B models. MegaTrain also enables 7B model training with 512k token context on a single GH200.

MegaTrain: Vollpräzisionstraining von großen Sprachmodellen mit über 100 Milliarden Parametern auf einer einzelnen GPU

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

Zusammenfassung

Support