Unicron: Economisch schaalbaar zelfherstellend LLM-trainingsproces
Unicron: Economizing Self-Healing LLM Training at Scale
December 30, 2023
Auteurs: Tao He, Xue Li, Zhibin Wang, Kun Qian, Jingbo Xu, Wenyuan Yu, Jingren Zhou
cs.AI
Samenvatting
Het trainen van grootschalige taalmodelen wordt steeds belangrijker in diverse domeinen, maar wordt belemmerd door frequente storingen, wat leidt tot aanzienlijke tijd- en economische kosten. Huidige methoden voor storingsherstel in cloudomgevingen schieten tekort in het aanpakken van de diverse en complexe scenario's die zich voordoen, waarbij ze zich beperken tot het minimaliseren van uitvaltijd voor individuele taken zonder rekening te houden met de algehele kostenimpact op een cluster. Wij introduceren Unicron, een workloadmanager die is ontworpen voor efficiënt zelfherstellend vermogen bij het trainen van grootschalige taalmodelen. Unicron optimaliseert het trainingsproces door storingsgerelateerde kosten te minimaliseren over meerdere gelijktijdige taken binnen een cluster. De belangrijkste kenmerken omvatten in-band foutdetectie voor realtime foutidentificatie zonder extra overhead, een dynamisch kostenbewust plan-generatiemechanisme voor optimale herconfiguratie, en een efficiënte overgangsstrategie om uitvaltijd tijdens staatsovergangen te verminderen. Geïmplementeerd op een gedistribueerd cluster van 128 GPU's, toont Unicron een verbetering van tot 1,9x in trainings efficiëntie vergeleken met state-of-the-art methoden, waardoor de kosten voor storingsherstel aanzienlijk worden verlaagd en de betrouwbaarheid van het trainen van grootschalige taalmodelen wordt verbeterd.
English
Training large-scale language models is increasingly critical in various
domains, but it is hindered by frequent failures, leading to significant time
and economic costs. Current failure recovery methods in cloud-based settings
inadequately address the diverse and complex scenarios that arise, focusing
narrowly on erasing downtime for individual tasks without considering the
overall cost impact on a cluster. We introduce Unicron, a workload manager
designed for efficient self-healing in large-scale language model training.
Unicron optimizes the training process by minimizing failure-related costs
across multiple concurrent tasks within a cluster. Its key features include
in-band error detection for real-time error identification without extra
overhead, a dynamic cost-aware plan generation mechanism for optimal
reconfiguration, and an efficient transition strategy to reduce downtime during
state changes. Deployed on a 128-GPU distributed cluster, Unicron demonstrates
up to a 1.9x improvement in training efficiency over state-of-the-art methods,
significantly reducing failure recovery costs and enhancing the reliability of
large-scale language model training.