ASTRA: エージェント軌道と強化学習環境の自動合成
ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas
January 29, 2026
著者: Xiaoyu Tian, Haotian Wang, Shuaiting Chen, Hao Zhou, Kaichi Yu, Yudian Zhang, Jade Ouyang, Junxi Yin, Jiong Chen, Baoyan Guo, Lei Zhang, Junjie Tao, Yuansheng Song, Ming Cui, Chengwei Liu
cs.AI
要旨
大規模言語モデル(LLM)は、ツール拡張エージェントとして多段階意思決定に活用される機会が増えているが、ロバストなツール利用エージェントの訓練は依然として課題である。既存手法では、手動介入が必要であったり、検証不可能なシミュレーション環境に依存したり、教師ありファインチューニング(SFT)または強化学習(RL)のいずれかに偏重していたり、長期的で多段階の学習を安定して行うことが困難であったりする。これらの課題に対処するため、本論文ではASTRAを提案する。これは、スケーラブルなデータ合成と検証可能な強化学習を通じて、ツール拡張言語モデルエージェントを訓練するための完全自動化されたエンドツーエンドのフレームワークである。ASTRAは二つの相補的コンポーネントを統合する。第一に、ツール呼び出しグラフの静的なトポロジーを活用するパイプラインにより、多様で構造的に基礎付けられた軌跡を合成し、広範で転移可能なツール利用能力を付与する。第二に、人間の意味的推論の豊かで合成的なトポロジーを捉える環境合成フレームワークにより、分解された質問応答トレースを独立した、コード実行可能でルール検証可能な環境に変換し、決定論的な多段階RLを可能にする。この手法に基づき、タスク完了と対話効率のバランスを取るために軌跡レベルの報酬を用いてSFTとオンラインRLを統合する、統一的な訓練方法論を開発する。複数のエージェントツール利用ベンチマークにおける実験により、ASTRAで訓練されたモデルは、同規模のモデルにおいて最先端の性能を達成し、コア推論能力を保持しつつクローズドソースシステムに迫る性能を示す。すべてのパイプライン、環境、訓練済みモデルをhttps://github.com/LianjiaTech/astra で公開する。
English
Large language models (LLMs) are increasingly used as tool-augmented agents for multi-step decision making, yet training robust tool-using agents remains challenging. Existing methods still require manual intervention, depend on non-verifiable simulated environments, rely exclusively on either supervised fine-tuning (SFT) or reinforcement learning (RL), and struggle with stable long-horizon, multi-turn learning. To address these challenges, we introduce ASTRA, a fully automated end-to-end framework for training tool-augmented language model agents via scalable data synthesis and verifiable reinforcement learning. ASTRA integrates two complementary components. First, a pipeline that leverages the static topology of tool-call graphs synthesizes diverse, structurally grounded trajectories, instilling broad and transferable tool-use competence. Second, an environment synthesis framework that captures the rich, compositional topology of human semantic reasoning converts decomposed question-answer traces into independent, code-executable, and rule-verifiable environments, enabling deterministic multi-turn RL. Based on this method, we develop a unified training methodology that integrates SFT with online RL using trajectory-level rewards to balance task completion and interaction efficiency. Experiments on multiple agentic tool-use benchmarks demonstrate that ASTRA-trained models achieve state-of-the-art performance at comparable scales, approaching closed-source systems while preserving core reasoning ability. We release the full pipelines, environments, and trained models at https://github.com/LianjiaTech/astra.