Mejorando la Eficiencia del Entrenamiento Paralelo a Gran Escala con C4: Un Enfoque Basado en la Comunicación

Resumen

El surgimiento de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) ha hecho necesario la adopción de técnicas de entrenamiento paralelo, que implican el despliegue de miles de GPUs para entrenar un solo modelo. Lamentablemente, hemos encontrado que la eficiencia del entrenamiento paralelo actual suele ser subóptima, principalmente debido a dos problemas principales. En primer lugar, los fallos de hardware son inevitables, lo que provoca interrupciones en las tareas de entrenamiento. La incapacidad de identificar rápidamente los componentes defectuosos resulta en un desperdicio considerable de recursos de GPU. En segundo lugar, dado que las GPUs deben esperar a que se complete la sincronización de parámetros antes de proceder a la siguiente ronda de cálculo, las congestiones de red pueden aumentar significativamente el tiempo de espera de las GPUs. Para abordar estos desafíos, este artículo introduce una solución impulsada por la comunicación, denominada C4. Las ideas clave de C4 son dos. Primero, en el entrenamiento paralelo, la comunicación colectiva exhibe características periódicas y homogéneas, por lo que cualquier anomalía se debe ciertamente a algún tipo de fallo de hardware. Al aprovechar esta característica, C4 puede identificar rápidamente los componentes defectuosos, aislar rápidamente la anomalía y reiniciar la tarea, evitando así el desperdicio de recursos causado por los retrasos en la detección de anomalías. Segundo, el modelo de comunicación predecible de la comunicación colectiva, que involucra pocos flujos grandes, permite a C4 ejecutar de manera eficiente la planificación del tráfico, reduciendo sustancialmente la congestión de la red. C4 ha sido ampliamente implementado en nuestros sistemas de producción, reduciendo los costos adicionales inducidos por errores en aproximadamente un 30% y mejorando el rendimiento en tiempo de ejecución en alrededor de un 15% para ciertas aplicaciones con costos de comunicación moderados.

English

The emergence of Large Language Models (LLMs) has necessitated the adoption of parallel training techniques, involving the deployment of thousands of GPUs to train a single model. Unfortunately, we have found that the efficiency of current parallel training is often suboptimal, largely due to the following two main issues. Firstly, hardware failures are inevitable, leading to interruptions in the training tasks. The inability to quickly identify the faulty components results in a substantial waste of GPU resources. Secondly, since GPUs must wait for parameter synchronization to complete before proceeding to the next round of computation, network congestions can greatly increase the waiting time for GPUs. To address these challenges, this paper introduces a communication-driven solution, namely the C4. The key insights of C4 are two folds. First, in parallel training, collective communication exhibits periodic and homogeneous characteristics, so any anomalies are certainly due to some form of hardware malfunction. By leveraging this feature, C4 can rapidly identify the faulty components, swiftly isolate the anomaly, and restart the task, thereby avoiding resource wastage caused by delays in anomaly detection. Second, the predictable communication model of collective communication, involving few large flows, allows C4 to efficiently execute traffic planning, substantially reducing network congestion. C4 has been extensively implemented across our production systems, cutting error-induced overhead by roughly 30% and enhancing runtime performance by about 15% for certain applications with moderate communication costs.

Mejorando la Eficiencia del Entrenamiento Paralelo a Gran Escala con C4: Un Enfoque Basado en la Comunicación

Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach

Resumen

Support