AstraFlow: Dataflow-georiënteerd Reinforcement Learning voor agentische LLM's

Samenvatting

Reinforcement learning (RL) wordt steeds vaker gebruikt om de redeneer-, codeer- en toolgebruiksmogelijkheden van grote taalmodellen te verbeteren, maar agentisch RL blijft prohibitief duur. Het opschalen van RL naar agentische LLM's vereist ondersteuning voor complexe workloads, waaronder gezamenlijke training met meerdere beleidsregels (multi-policy collaborative training), terwijl elastische, heterogene en cross-regio computerbronnen efficiënt moeten worden benut. Bestaande RL-systemen voor LLM's ondersteunen enkele van deze mogelijkheden, maar elke nieuwe uitbreiding vergt vaak specifieke systeemtechniek. Deze last vloeit voort uit trainer-gecentreerde controlearchitecturen en het ontbreken van principiële abstracties voor RL-systeemcomponenten. Om deze beperkingen aan te pakken, stellen we AstraFlow voor, een dataflow-georiënteerd RL-systeem dat de conventionele trainer-gecentreerde controle vervangt door principiële componentabstracties. In AstraFlow worden rollout-diensten, dataflowbeheer en training ontkoppeld in autonome componenten, waardoor het systeem van nature complexe multi-beleid agentische RL-workloads ondersteunt en diverse computerbronnen efficiënt benut. We evalueren AstraFlow op wiskunde-, code-, zoek- en AgentBench-workloads, en tonen aan dat hetzelfde systeem multi-beleidstraining, elastisch schalen, heterogene cross-regio-uitvoering en samengestelde data-algoritmen ondersteunt zonder systeemcode-aanpassingen. Bij gezamenlijke training met meerdere beleidsregels behaalt AstraFlow een vergelijkbare of betere nauwkeurigheid dan bestaande RL-systemen, terwijl de trainingstijd met een factor 2,7 wordt versneld.

English

Reinforcement learning (RL) is increasingly used to improve the reasoning, coding, and tool-use capabilities of large language models, but agentic RL remains prohibitively expensive. Scaling RL to agentic LLMs requires supporting complex workloads, including multi-policy collaborative training, while efficiently using elastic, heterogeneous, and cross-region compute resources. Existing LLM RL systems support some of these capabilities, but each new extension often requires dedicated system engineering. This burden arises from trainer-centered control architectures and the lack of principled abstractions for RL system components. To address these limitations, we propose AstraFlow, a dataflow-oriented RL system that replaces conventional trainer-centered control with principled component abstractions. In AstraFlow, rollout services, dataflow management, and training are decoupled into autonomous components, enabling the system to natively support complex multi-policy agentic RL workloads and efficiently exploit diverse compute resources. We evaluate AstraFlow across math, code, search, and AgentBench workloads, showing that the same system supports multi-policy training, elastic scaling, heterogeneous cross-region execution, and composable data algorithms without system-level code changes. In multi-policy collaborative training, AstraFlow achieves comparable or better accuracy than existing RL systems while speeding up training time by 2.7x.