AstraFlow: Потоко-ориентированное обучение с подкреплением для агентных LLM

Аннотация

Обучение с подкреплением (RL) все чаще применяется для улучшения способностей больших языковых моделей к рассуждению, написанию кода и использованию инструментов, однако агентное RL остается запретительно дорогим. Масштабирование RL на агентные LLM требует поддержки сложных рабочих нагрузок, включая совместное обучение с несколькими политиками, при эффективном использовании эластичных, гетерогенных и межрегиональных вычислительных ресурсов. Существующие системы RL для LLM поддерживают некоторые из этих возможностей, но каждое новое расширение часто требует специальной системной инженерии. Это бремя возникает из-за архитектур управления, ориентированных на тренер, и отсутствия принципиальных абстракций для компонентов системы RL. Для устранения этих ограничений мы предлагаем AstraFlow — ориентированную на потоки данных систему RL, которая заменяет традиционное управление, ориентированное на тренер, принципиальными абстракциями компонентов. В AstraFlow сервисы развертывания, управление потоками данных и обучение разделены на автономные компоненты, что позволяет системе изначально поддерживать сложные агентные рабочие нагрузки с несколькими политиками и эффективно использовать разнообразные вычислительные ресурсы. Мы оцениваем AstraFlow на рабочих нагрузках по математике, коду, поиску и AgentBench, показывая, что одна и та же система поддерживает многополитическое обучение, эластичное масштабирование, гетерогенное межрегиональное выполнение и компоновку алгоритмов данных без изменений системного кода. При совместном обучении с несколькими политиками AstraFlow достигает сопоставимой или лучшей точности по сравнению с существующими системами RL, одновременно ускоряя время обучения в 2,7 раза.

English

Reinforcement learning (RL) is increasingly used to improve the reasoning, coding, and tool-use capabilities of large language models, but agentic RL remains prohibitively expensive. Scaling RL to agentic LLMs requires supporting complex workloads, including multi-policy collaborative training, while efficiently using elastic, heterogeneous, and cross-region compute resources. Existing LLM RL systems support some of these capabilities, but each new extension often requires dedicated system engineering. This burden arises from trainer-centered control architectures and the lack of principled abstractions for RL system components. To address these limitations, we propose AstraFlow, a dataflow-oriented RL system that replaces conventional trainer-centered control with principled component abstractions. In AstraFlow, rollout services, dataflow management, and training are decoupled into autonomous components, enabling the system to natively support complex multi-policy agentic RL workloads and efficiently exploit diverse compute resources. We evaluate AstraFlow across math, code, search, and AgentBench workloads, showing that the same system supports multi-policy training, elastic scaling, heterogeneous cross-region execution, and composable data algorithms without system-level code changes. In multi-policy collaborative training, AstraFlow achieves comparable or better accuracy than existing RL systems while speeding up training time by 2.7x.