Unicron: Wirtschaftliche Skalierung des selbstheilenden Trainings von großen Sprachmodellen
Unicron: Economizing Self-Healing LLM Training at Scale
December 30, 2023
Autoren: Tao He, Xue Li, Zhibin Wang, Kun Qian, Jingbo Xu, Wenyuan Yu, Jingren Zhou
cs.AI
Zusammenfassung
Das Training von großskaligen Sprachmodellen wird in verschiedenen Bereichen zunehmend kritisch, wird jedoch durch häufige Ausfälle behindert, die zu erheblichen zeitlichen und wirtschaftlichen Kosten führen. Aktuelle Methoden zur Fehlerbehebung in Cloud-basierten Umgebungen adressieren die vielfältigen und komplexen Szenarien, die auftreten, unzureichend, da sie sich eng auf die Beseitigung von Ausfallzeiten für einzelne Aufgaben konzentrieren, ohne die Gesamtkostenauswirkungen auf einen Cluster zu berücksichtigen. Wir stellen Unicron vor, einen Workload-Manager, der für effiziente Selbstheilung beim Training großskaliger Sprachmodelle entwickelt wurde. Unicron optimiert den Trainingsprozess, indem es die ausfallbedingten Kosten über mehrere gleichzeitige Aufgaben innerhalb eines Clusters minimiert. Zu seinen Schlüsselfunktionen gehören die In-Band-Fehlererkennung zur Echtzeitidentifikation von Fehlern ohne zusätzlichen Overhead, ein dynamischer kostenbewusster Planungsmechanismus für eine optimale Neukonfiguration und eine effiziente Übergangsstrategie zur Reduzierung von Ausfallzeiten während Zustandsänderungen. Auf einem verteilten Cluster mit 128 GPUs eingesetzt, zeigt Unicron eine bis zu 1,9-fache Verbesserung der Trainingseffizienz gegenüber modernsten Methoden, wodurch die Kosten für die Fehlerbehebung erheblich reduziert und die Zuverlässigkeit des Trainings großskaliger Sprachmodelle gesteigert wird.
English
Training large-scale language models is increasingly critical in various
domains, but it is hindered by frequent failures, leading to significant time
and economic costs. Current failure recovery methods in cloud-based settings
inadequately address the diverse and complex scenarios that arise, focusing
narrowly on erasing downtime for individual tasks without considering the
overall cost impact on a cluster. We introduce Unicron, a workload manager
designed for efficient self-healing in large-scale language model training.
Unicron optimizes the training process by minimizing failure-related costs
across multiple concurrent tasks within a cluster. Its key features include
in-band error detection for real-time error identification without extra
overhead, a dynamic cost-aware plan generation mechanism for optimal
reconfiguration, and an efficient transition strategy to reduce downtime during
state changes. Deployed on a 128-GPU distributed cluster, Unicron demonstrates
up to a 1.9x improvement in training efficiency over state-of-the-art methods,
significantly reducing failure recovery costs and enhancing the reliability of
large-scale language model training.