AstraFlow: Datenflussorientiertes Verstärkungslernen für agentische LLMs

Zusammenfassung

Verstärkungslernen (Reinforcement Learning, RL) wird zunehmend eingesetzt, um die Fähigkeiten großer Sprachmodelle in den Bereichen logisches Denken, Codegenerierung und Werkzeugnutzung zu verbessern, jedoch bleibt agentisches RL weiterhin prohibitiv teuer. Die Skalierung von RL auf agentische große Sprachmodelle erfordert die Unterstützung komplexer Arbeitslasten, einschließlich kollaborativem Training mit mehreren Richtlinien (Multi-Policy Collaborative Training), bei gleichzeitig effizienter Nutzung elastischer, heterogener und über Regionen hinweg verteilter Rechenressourcen. Bestehende RL-Systeme für große Sprachmodelle unterstützen einige dieser Fähigkeiten, jedoch erfordert jede neue Erweiterung oft dedizierte Systementwicklung. Diese Belastung resultiert aus trainergesteuerten Kontrollarchitekturen und dem Fehlen prinzipientreuer Abstraktionen für RL-Systemkomponenten. Um diese Einschränkungen zu überwinden, schlagen wir AstraFlow vor, ein datenflussorientiertes RL-System, das die herkömmliche trainergesteuerte Kontrolle durch prinzipientreue Komponentenabstraktionen ersetzt. In AstraFlow sind Rollout-Dienste, Datenflussmanagement und Training in autonome Komponenten entkoppelt, wodurch das System nativ komplexe agentische RL-Arbeitslasten mit mehreren Richtlinien unterstützt und verschiedene Rechenressourcen effizient nutzt. Wir evaluieren AstraFlow über Arbeitslasten aus den Bereichen Mathematik, Code, Suche und AgentBench und zeigen, dass dasselbe System ohne systemseitige Codeänderungen Multi-Policy-Training, elastische Skalierung, heterogene regionsübergreifende Ausführung und kombinierbare Datenalgorithmen unterstützt. Beim kollaborativen Training mit mehreren Richtlinien erreicht AstraFlow eine vergleichbare oder bessere Genauigkeit als bestehende RL-Systeme und beschleunigt gleichzeitig die Trainingszeit um das 2,7-fache.

English

Reinforcement learning (RL) is increasingly used to improve the reasoning, coding, and tool-use capabilities of large language models, but agentic RL remains prohibitively expensive. Scaling RL to agentic LLMs requires supporting complex workloads, including multi-policy collaborative training, while efficiently using elastic, heterogeneous, and cross-region compute resources. Existing LLM RL systems support some of these capabilities, but each new extension often requires dedicated system engineering. This burden arises from trainer-centered control architectures and the lack of principled abstractions for RL system components. To address these limitations, we propose AstraFlow, a dataflow-oriented RL system that replaces conventional trainer-centered control with principled component abstractions. In AstraFlow, rollout services, dataflow management, and training are decoupled into autonomous components, enabling the system to natively support complex multi-policy agentic RL workloads and efficiently exploit diverse compute resources. We evaluate AstraFlow across math, code, search, and AgentBench workloads, showing that the same system supports multi-policy training, elastic scaling, heterogeneous cross-region execution, and composable data algorithms without system-level code changes. In multi-policy collaborative training, AstraFlow achieves comparable or better accuracy than existing RL systems while speeding up training time by 2.7x.