ASTRA: Автоматизированный синтез агентных траекторий и арен для обучения с подкреплением

Аннотация

Крупные языковые модели (LLMs) все чаще используются как агенты, усиленные инструментами, для многошагового принятия решений, однако обучение надежных агентов, использующих инструменты, остается сложной задачей. Существующие методы по-прежнему требуют ручного вмешательства, зависят от непроверяемых имитационных сред, полагаются исключительно либо на контролируемую тонкую настройку (SFT), либо на обучение с подкреплением (RL), и испытывают трудности со стабильным обучением на длинных временных горизонтах с множеством шагов. Для решения этих проблем мы представляем ASTRA — полностью автоматизированную сквозную платформу для обучения языковых моделей-агентов, усиленных инструментами, с помощью масштабируемого синтеза данных и проверяемого обучения с подкреплением. ASTRA объединяет два взаимодополняющих компонента. Во-первых, конвейер, использующий статическую топологию графов вызовов инструментов, синтезирует разнообразные, структурно обоснованные траектории, прививая широкую и переносимую компетенцию использования инструментов. Во-вторых, фреймворк синтеза сред, который захватывает богатую, композиционную топологию человеческого семантического мышления, преобразует декомпозированные вопросно-ответные трассы в независимые, исполняемые в виде кода и проверяемые по правилам среды, позволяя детерминированное многошаговое RL. На основе этого метода мы разрабатываем унифицированную методологию обучения, которая интегрирует SFT с онлайн RL, используя вознаграждения на уровне траекторий для балансировки завершения задачи и эффективности взаимодействия. Эксперименты на нескольких бенчмарках агентского использования инструментов демонстрируют, что модели, обученные с помощью ASTRA, достигают передовой производительности на сопоставимых масштабах, приближаясь к проприетарным системам при сохранении ключевых способностей к рассуждению. Мы публикуем полные конвейеры, среды и обученные модели по адресу https://github.com/LianjiaTech/astra.

English

Large language models (LLMs) are increasingly used as tool-augmented agents for multi-step decision making, yet training robust tool-using agents remains challenging. Existing methods still require manual intervention, depend on non-verifiable simulated environments, rely exclusively on either supervised fine-tuning (SFT) or reinforcement learning (RL), and struggle with stable long-horizon, multi-turn learning. To address these challenges, we introduce ASTRA, a fully automated end-to-end framework for training tool-augmented language model agents via scalable data synthesis and verifiable reinforcement learning. ASTRA integrates two complementary components. First, a pipeline that leverages the static topology of tool-call graphs synthesizes diverse, structurally grounded trajectories, instilling broad and transferable tool-use competence. Second, an environment synthesis framework that captures the rich, compositional topology of human semantic reasoning converts decomposed question-answer traces into independent, code-executable, and rule-verifiable environments, enabling deterministic multi-turn RL. Based on this method, we develop a unified training methodology that integrates SFT with online RL using trajectory-level rewards to balance task completion and interaction efficiency. Experiments on multiple agentic tool-use benchmarks demonstrate that ASTRA-trained models achieve state-of-the-art performance at comparable scales, approaching closed-source systems while preserving core reasoning ability. We release the full pipelines, environments, and trained models at https://github.com/LianjiaTech/astra.

ASTRA: Автоматизированный синтез агентных траекторий и арен для обучения с подкреплением

ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

Аннотация

Support