Unicron: Economizando o Treinamento de LLMs com Autocuração em Escala
Unicron: Economizing Self-Healing LLM Training at Scale
December 30, 2023
Autores: Tao He, Xue Li, Zhibin Wang, Kun Qian, Jingbo Xu, Wenyuan Yu, Jingren Zhou
cs.AI
Resumo
O treinamento de modelos de linguagem em grande escala é cada vez mais crítico em diversos domínios, mas é dificultado por falhas frequentes, resultando em custos significativos de tempo e recursos. Os métodos atuais de recuperação de falhas em ambientes baseados em nuvem não abordam adequadamente os cenários diversos e complexos que surgem, focando-se de forma restrita na eliminação de tempo de inatividade para tarefas individuais, sem considerar o impacto geral nos custos de um cluster. Apresentamos o Unicron, um gerenciador de carga de trabalho projetado para autorrecuperação eficiente no treinamento de modelos de linguagem em grande escala. O Unicron otimiza o processo de treinamento ao minimizar os custos relacionados a falhas em múltiplas tarefas simultâneas dentro de um cluster. Suas principais características incluem detecção de erros em banda para identificação de erros em tempo real sem sobrecarga adicional, um mecanismo dinâmico de geração de planos com consciência de custo para reconfiguração ideal e uma estratégia de transição eficiente para reduzir o tempo de inatividade durante mudanças de estado. Implantado em um cluster distribuído com 128 GPUs, o Unicron demonstra uma melhoria de até 1,9x na eficiência de treinamento em comparação com os métodos mais avançados, reduzindo significativamente os custos de recuperação de falhas e aumentando a confiabilidade do treinamento de modelos de linguagem em grande escala.
English
Training large-scale language models is increasingly critical in various
domains, but it is hindered by frequent failures, leading to significant time
and economic costs. Current failure recovery methods in cloud-based settings
inadequately address the diverse and complex scenarios that arise, focusing
narrowly on erasing downtime for individual tasks without considering the
overall cost impact on a cluster. We introduce Unicron, a workload manager
designed for efficient self-healing in large-scale language model training.
Unicron optimizes the training process by minimizing failure-related costs
across multiple concurrent tasks within a cluster. Its key features include
in-band error detection for real-time error identification without extra
overhead, a dynamic cost-aware plan generation mechanism for optimal
reconfiguration, and an efficient transition strategy to reduce downtime during
state changes. Deployed on a 128-GPU distributed cluster, Unicron demonstrates
up to a 1.9x improvement in training efficiency over state-of-the-art methods,
significantly reducing failure recovery costs and enhancing the reliability of
large-scale language model training.