AstraFlow : Apprentissage par renforcement orienté flux de données pour les LLM agentiques

Résumé

L'apprentissage par renforcement (RL) est de plus en plus utilisé pour améliorer les capacités de raisonnement, de codage et d'utilisation d'outils des grands modèles de langage, mais le RL agentique reste prohibitivement coûteux. Passer le RL à l'échelle des LLM agentiques nécessite de prendre en charge des charges de travail complexes, notamment l'entraînement collaboratif multi-politique, tout en utilisant efficacement des ressources de calcul élastiques, hétérogènes et multi-régions. Les systèmes RL existants pour LLM prennent en charge certaines de ces capacités, mais chaque nouvelle extension exige souvent un travail d'ingénierie système dédié. Cette charge découle des architectures de contrôle centrées sur l'entraîneur et de l'absence d'abstractions structurées pour les composants du système RL. Pour remédier à ces limitations, nous proposons AstraFlow, un système RL orienté flux de données qui remplace le contrôle centré sur l'entraîneur conventionnel par des abstractions de composants structurées. Dans AstraFlow, les services de déploiement, la gestion des flux de données et l'entraînement sont découplés en composants autonomes, permettant au système de prendre en charge nativement des charges de travail RL agentiques multi-politiques complexes et d'exploiter efficacement diverses ressources de calcul. Nous évaluons AstraFlow sur des charges de travail de mathématiques, code, recherche et AgentBench, démontrant que le même système prend en charge l'entraînement multi-politique, la mise à l'échelle élastique, l'exécution hétérogène multi-régions et les algorithmes de données composables sans modification du code système. Dans l'entraînement collaboratif multi-politique, AstraFlow atteint une précision comparable ou supérieure à celle des systèmes RL existants, tout en accélérant le temps d'entraînement d'un facteur 2,7.

English

Reinforcement learning (RL) is increasingly used to improve the reasoning, coding, and tool-use capabilities of large language models, but agentic RL remains prohibitively expensive. Scaling RL to agentic LLMs requires supporting complex workloads, including multi-policy collaborative training, while efficiently using elastic, heterogeneous, and cross-region compute resources. Existing LLM RL systems support some of these capabilities, but each new extension often requires dedicated system engineering. This burden arises from trainer-centered control architectures and the lack of principled abstractions for RL system components. To address these limitations, we propose AstraFlow, a dataflow-oriented RL system that replaces conventional trainer-centered control with principled component abstractions. In AstraFlow, rollout services, dataflow management, and training are decoupled into autonomous components, enabling the system to natively support complex multi-policy agentic RL workloads and efficiently exploit diverse compute resources. We evaluate AstraFlow across math, code, search, and AgentBench workloads, showing that the same system supports multi-policy training, elastic scaling, heterogeneous cross-region execution, and composable data algorithms without system-level code changes. In multi-policy collaborative training, AstraFlow achieves comparable or better accuracy than existing RL systems while speeding up training time by 2.7x.