Unicron: Ottimizzazione Economica dell'Addestramento di Modelli Linguistici Auto-Riparanti su Scala
Unicron: Economizing Self-Healing LLM Training at Scale
December 30, 2023
Autori: Tao He, Xue Li, Zhibin Wang, Kun Qian, Jingbo Xu, Wenyuan Yu, Jingren Zhou
cs.AI
Abstract
L'addestramento di modelli linguistici su larga scala sta diventando sempre più cruciale in vari ambiti, ma è ostacolato da frequenti guasti, che comportano costi significativi in termini di tempo e risorse economiche. Gli attuali metodi di ripristino in caso di guasto in ambienti basati su cloud non affrontano adeguatamente gli scenari complessi e diversificati che si presentano, concentrandosi in modo limitato sull'eliminazione dei tempi di inattività per singoli compiti senza considerare l'impatto complessivo sui costi di un cluster. Introduciamo Unicron, un gestore di carichi di lavoro progettato per un'autoguarigione efficiente nell'addestramento di modelli linguistici su larga scala. Unicron ottimizza il processo di addestramento minimizzando i costi legati ai guasti su più compiti concorrenti all'interno di un cluster. Le sue caratteristiche principali includono il rilevamento degli errori in-band per l'identificazione in tempo reale senza sovraccarichi aggiuntivi, un meccanismo dinamico di generazione di piani basato sui costi per una riconfigurazione ottimale e una strategia di transizione efficiente per ridurre i tempi di inattività durante i cambiamenti di stato. Implementato su un cluster distribuito con 128 GPU, Unicron dimostra un miglioramento fino a 1,9x nell'efficienza di addestramento rispetto ai metodi più avanzati, riducendo significativamente i costi di ripristino dei guasti e migliorando l'affidabilità dell'addestramento di modelli linguistici su larga scala.
English
Training large-scale language models is increasingly critical in various
domains, but it is hindered by frequent failures, leading to significant time
and economic costs. Current failure recovery methods in cloud-based settings
inadequately address the diverse and complex scenarios that arise, focusing
narrowly on erasing downtime for individual tasks without considering the
overall cost impact on a cluster. We introduce Unicron, a workload manager
designed for efficient self-healing in large-scale language model training.
Unicron optimizes the training process by minimizing failure-related costs
across multiple concurrent tasks within a cluster. Its key features include
in-band error detection for real-time error identification without extra
overhead, a dynamic cost-aware plan generation mechanism for optimal
reconfiguration, and an efficient transition strategy to reduce downtime during
state changes. Deployed on a 128-GPU distributed cluster, Unicron demonstrates
up to a 1.9x improvement in training efficiency over state-of-the-art methods,
significantly reducing failure recovery costs and enhancing the reliability of
large-scale language model training.