ChatPaper.aiChatPaper

Unicron: Оптимизация масштабируемого обучения самоисцеляющихся больших языковых моделей

Unicron: Economizing Self-Healing LLM Training at Scale

December 30, 2023
Авторы: Tao He, Xue Li, Zhibin Wang, Kun Qian, Jingbo Xu, Wenyuan Yu, Jingren Zhou
cs.AI

Аннотация

Обучение крупномасштабных языковых моделей становится все более важным в различных областях, однако этот процесс затрудняется частыми сбоями, что приводит к значительным временным и экономическим затратам. Современные методы восстановления после сбоев в облачных средах недостаточно эффективно справляются с разнообразными и сложными сценариями, сосредотачиваясь исключительно на устранении простоев для отдельных задач без учета общего влияния на стоимость работы кластера. Мы представляем Unicron, менеджер рабочих нагрузок, разработанный для эффективного самовосстановления при обучении крупномасштабных языковых моделей. Unicron оптимизирует процесс обучения, минимизируя затраты, связанные со сбоями, для множества параллельных задач в рамках кластера. Его ключевые особенности включают встроенное обнаружение ошибок для их идентификации в реальном времени без дополнительных накладных расходов, механизм динамического формирования планов с учетом стоимости для оптимальной переконфигурации, а также эффективную стратегию перехода для сокращения времени простоя при изменении состояний. Развернутый на распределенном кластере из 128 графических процессоров, Unicron демонстрирует до 1,9-кратное улучшение эффективности обучения по сравнению с передовыми методами, значительно снижая затраты на восстановление после сбоев и повышая надежность обучения крупномасштабных языковых моделей.
English
Training large-scale language models is increasingly critical in various domains, but it is hindered by frequent failures, leading to significant time and economic costs. Current failure recovery methods in cloud-based settings inadequately address the diverse and complex scenarios that arise, focusing narrowly on erasing downtime for individual tasks without considering the overall cost impact on a cluster. We introduce Unicron, a workload manager designed for efficient self-healing in large-scale language model training. Unicron optimizes the training process by minimizing failure-related costs across multiple concurrent tasks within a cluster. Its key features include in-band error detection for real-time error identification without extra overhead, a dynamic cost-aware plan generation mechanism for optimal reconfiguration, and an efficient transition strategy to reduce downtime during state changes. Deployed on a 128-GPU distributed cluster, Unicron demonstrates up to a 1.9x improvement in training efficiency over state-of-the-art methods, significantly reducing failure recovery costs and enhancing the reliability of large-scale language model training.
PDF121December 15, 2024