ChatPaper.aiChatPaper

Unicron : Optimisation économique de l'entraînement à grande échelle de modèles de langage auto-réparateurs

Unicron: Economizing Self-Healing LLM Training at Scale

December 30, 2023
Auteurs: Tao He, Xue Li, Zhibin Wang, Kun Qian, Jingbo Xu, Wenyuan Yu, Jingren Zhou
cs.AI

Résumé

L'entraînement de modèles de langage à grande échelle devient de plus en plus crucial dans divers domaines, mais il est entravé par des défaillances fréquentes, entraînant des coûts temporels et économiques significatifs. Les méthodes actuelles de récupération après défaillance dans les environnements basés sur le cloud ne parviennent pas à répondre adéquatement aux scénarios divers et complexes qui surviennent, se concentrant étroitement sur la réduction des temps d'arrêt pour des tâches individuelles sans tenir compte de l'impact global sur les coûts d'un cluster. Nous présentons Unicron, un gestionnaire de charge de travail conçu pour une auto-réparation efficace dans l'entraînement de modèles de langage à grande échelle. Unicron optimise le processus d'entraînement en minimisant les coûts liés aux défaillances pour plusieurs tâches concurrentes au sein d'un cluster. Ses caractéristiques clés incluent la détection d'erreurs en bande pour l'identification en temps réel des erreurs sans surcharge supplémentaire, un mécanisme de génération de plans dynamiques prenant en compte les coûts pour une reconfiguration optimale, et une stratégie de transition efficace pour réduire les temps d'arrêt lors des changements d'état. Déployé sur un cluster distribué de 128 GPU, Unicron démontre une amélioration allant jusqu'à 1,9x en efficacité d'entraînement par rapport aux méthodes de pointe, réduisant significativement les coûts de récupération après défaillance et améliorant la fiabilité de l'entraînement de modèles de langage à grande échelle.
English
Training large-scale language models is increasingly critical in various domains, but it is hindered by frequent failures, leading to significant time and economic costs. Current failure recovery methods in cloud-based settings inadequately address the diverse and complex scenarios that arise, focusing narrowly on erasing downtime for individual tasks without considering the overall cost impact on a cluster. We introduce Unicron, a workload manager designed for efficient self-healing in large-scale language model training. Unicron optimizes the training process by minimizing failure-related costs across multiple concurrent tasks within a cluster. Its key features include in-band error detection for real-time error identification without extra overhead, a dynamic cost-aware plan generation mechanism for optimal reconfiguration, and an efficient transition strategy to reduce downtime during state changes. Deployed on a 128-GPU distributed cluster, Unicron demonstrates up to a 1.9x improvement in training efficiency over state-of-the-art methods, significantly reducing failure recovery costs and enhancing the reliability of large-scale language model training.
PDF121December 15, 2024