AstraFlow: Aprendizaje por Refuerzo Orientado a Flujo de Datos para LLMs Agénticos

Resumen

El aprendizaje por refuerzo (RL) se utiliza cada vez más para mejorar las capacidades de razonamiento, codificación y uso de herramientas de los grandes modelos de lenguaje, pero el RL agéntico sigue siendo prohibitivamente costoso. Escalar el RL a los LLM agénticos requiere soportar cargas de trabajo complejas, incluyendo el entrenamiento colaborativo de múltiples políticas, mientras se utilizan de manera eficiente recursos de cómputo elásticos, heterogéneos y entre regiones. Los sistemas de RL para LLM existentes soportan algunas de estas capacidades, pero cada nueva extensión a menudo requiere ingeniería de sistemas dedicada. Esta carga surge de las arquitecturas de control centradas en el entrenador y la falta de abstracciones basadas en principios para los componentes del sistema de RL. Para abordar estas limitaciones, proponemos AstraFlow, un sistema de RL orientado al flujo de datos que reemplaza el control convencional centrado en el entrenador con abstracciones de componentes basadas en principios. En AstraFlow, los servicios de despliegue, la gestión del flujo de datos y el entrenamiento se desacoplan en componentes autónomos, lo que permite que el sistema soporte de forma nativa cargas de trabajo de RL agéntico de múltiples políticas y explote eficientemente diversos recursos de cómputo. Evaluamos AstraFlow en cargas de trabajo de matemáticas, código, búsqueda y AgentBench, mostrando que el mismo sistema soporta entrenamiento de múltiples políticas, escalado elástico, ejecución heterogénea entre regiones y algoritmos de datos componibles sin cambios de código a nivel de sistema. En el entrenamiento colaborativo de múltiples políticas, AstraFlow logra una precisión comparable o mejor que los sistemas de RL existentes mientras acelera el tiempo de entrenamiento en 2.7 veces.

English

Reinforcement learning (RL) is increasingly used to improve the reasoning, coding, and tool-use capabilities of large language models, but agentic RL remains prohibitively expensive. Scaling RL to agentic LLMs requires supporting complex workloads, including multi-policy collaborative training, while efficiently using elastic, heterogeneous, and cross-region compute resources. Existing LLM RL systems support some of these capabilities, but each new extension often requires dedicated system engineering. This burden arises from trainer-centered control architectures and the lack of principled abstractions for RL system components. To address these limitations, we propose AstraFlow, a dataflow-oriented RL system that replaces conventional trainer-centered control with principled component abstractions. In AstraFlow, rollout services, dataflow management, and training are decoupled into autonomous components, enabling the system to natively support complex multi-policy agentic RL workloads and efficiently exploit diverse compute resources. We evaluate AstraFlow across math, code, search, and AgentBench workloads, showing that the same system supports multi-policy training, elastic scaling, heterogeneous cross-region execution, and composable data algorithms without system-level code changes. In multi-policy collaborative training, AstraFlow achieves comparable or better accuracy than existing RL systems while speeding up training time by 2.7x.