AsyncFlow: Un marco de RL de transmisión asíncrona para el entrenamiento posterior eficiente de LLM

Resumen

El aprendizaje por refuerzo (RL, por sus siglas en inglés) se ha convertido en una tecnología fundamental en la fase de posentrenamiento de los modelos de lenguaje de gran escala (LLMs). Los marcos tradicionales de RL con tareas colocalizadas enfrentan cuellos de botella significativos en términos de escalabilidad, mientras que los marcos de RL con tareas separadas se enfrentan a desafíos en flujos de datos complejos y el correspondiente tiempo de inactividad de recursos y desequilibrio de cargas de trabajo. Además, la mayoría de los marcos existentes están estrechamente acoplados con los motores de entrenamiento o inferencia de los LLMs, lo que dificulta la compatibilidad con motores personalizados. Para abordar estos desafíos, proponemos AsyncFlow, un marco de RL de transmisión asíncrona para un posentrenamiento eficiente. Específicamente, introducimos un módulo distribuido de almacenamiento y transferencia de datos que proporciona una gestión unificada de datos y una capacidad de planificación detallada en un flujo completamente continuo. Esta arquitectura facilita inherentemente la superposición automatizada de tuberías entre tareas de RL y el equilibrio dinámico de cargas. Además, proponemos un motor de flujo de trabajo asíncrono basado en productor-consumidor diseñado para minimizar el tiempo de inactividad computacional mediante la postergación estratégica del proceso de actualización de parámetros dentro de umbrales de obsolescencia. Finalmente, la capacidad central de AsyncFlow está arquitectónicamente desacoplada de los motores subyacentes de entrenamiento e inferencia y encapsulada por interfaces de usuario orientadas a servicios, ofreciendo una experiencia modular y personalizable. Experimentos exhaustivos demuestran una mejora promedio de 1.59 veces en el rendimiento en comparación con los baselines más avanzados. La arquitectura presentada en este trabajo proporciona ideas prácticas para el diseño de sistemas de entrenamiento de RL de próxima generación.

English

Reinforcement learning (RL) has become a pivotal technology in the post-training phase of large language models (LLMs). Traditional task-colocated RL frameworks suffer from significant scalability bottlenecks, while task-separated RL frameworks face challenges in complex dataflows and the corresponding resource idling and workload imbalance. Moreover, most existing frameworks are tightly coupled with LLM training or inference engines, making it difficult to support custom-designed engines. To address these challenges, we propose AsyncFlow, an asynchronous streaming RL framework for efficient post-training. Specifically, we introduce a distributed data storage and transfer module that provides a unified data management and fine-grained scheduling capability in a fully streamed manner. This architecture inherently facilitates automated pipeline overlapping among RL tasks and dynamic load balancing. Moreover, we propose a producer-consumer-based asynchronous workflow engineered to minimize computational idleness by strategically deferring parameter update process within staleness thresholds. Finally, the core capability of AsynFlow is architecturally decoupled from underlying training and inference engines and encapsulated by service-oriented user interfaces, offering a modular and customizable user experience. Extensive experiments demonstrate an average of 1.59 throughput improvement compared with state-of-the-art baseline. The presented architecture in this work provides actionable insights for next-generation RL training system designs.

AsyncFlow: Un marco de RL de transmisión asíncrona para el entrenamiento posterior eficiente de LLM

AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training

Resumen

Support