Unicron: Optimización de la Capacidad de Autoreparación en el Entrenamiento de Modelos de Lenguaje a Gran Escala
Unicron: Economizing Self-Healing LLM Training at Scale
December 30, 2023
Autores: Tao He, Xue Li, Zhibin Wang, Kun Qian, Jingbo Xu, Wenyuan Yu, Jingren Zhou
cs.AI
Resumen
El entrenamiento de modelos de lenguaje a gran escala es cada vez más crucial en diversos dominios, pero se ve obstaculizado por fallos frecuentes, lo que conlleva costos significativos de tiempo y económicos. Los métodos actuales de recuperación de fallos en entornos basados en la nube abordan de manera insuficiente los escenarios diversos y complejos que surgen, centrándose de manera limitada en eliminar el tiempo de inactividad para tareas individuales sin considerar el impacto general en los costos de un clúster. Presentamos Unicron, un gestor de cargas de trabajo diseñado para una autoreparación eficiente en el entrenamiento de modelos de lenguaje a gran escala. Unicron optimiza el proceso de entrenamiento minimizando los costos relacionados con fallos en múltiples tareas concurrentes dentro de un clúster. Sus características clave incluyen la detección de errores en banda para la identificación de errores en tiempo real sin sobrecarga adicional, un mecanismo dinámico de generación de planes consciente de los costos para una reconfiguración óptima, y una estrategia de transición eficiente para reducir el tiempo de inactividad durante los cambios de estado. Implementado en un clúster distribuido de 128 GPU, Unicron demuestra una mejora de hasta 1.9x en la eficiencia del entrenamiento en comparación con los métodos más avanzados, reduciendo significativamente los costos de recuperación de fallos y mejorando la confiabilidad del entrenamiento de modelos de lenguaje a gran escala.
English
Training large-scale language models is increasingly critical in various
domains, but it is hindered by frequent failures, leading to significant time
and economic costs. Current failure recovery methods in cloud-based settings
inadequately address the diverse and complex scenarios that arise, focusing
narrowly on erasing downtime for individual tasks without considering the
overall cost impact on a cluster. We introduce Unicron, a workload manager
designed for efficient self-healing in large-scale language model training.
Unicron optimizes the training process by minimizing failure-related costs
across multiple concurrent tasks within a cluster. Its key features include
in-band error detection for real-time error identification without extra
overhead, a dynamic cost-aware plan generation mechanism for optimal
reconfiguration, and an efficient transition strategy to reduce downtime during
state changes. Deployed on a 128-GPU distributed cluster, Unicron demonstrates
up to a 1.9x improvement in training efficiency over state-of-the-art methods,
significantly reducing failure recovery costs and enhancing the reliability of
large-scale language model training.