ASTRA : Synthèse Automatisée de Trajectoires Agentiques et d'Arènes de Renforcement
ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas
January 29, 2026
papers.authors: Xiaoyu Tian, Haotian Wang, Shuaiting Chen, Hao Zhou, Kaichi Yu, Yudian Zhang, Jade Ouyang, Junxi Yin, Jiong Chen, Baoyan Guo, Lei Zhang, Junjie Tao, Yuansheng Song, Ming Cui, Chengwei Liu
cs.AI
papers.abstract
Les grands modèles de langage (LLM) sont de plus en plus utilisés comme agents assistés d'outils pour la prise de décision multi-étapes, mais l'entraînement d'agents robustes utilisant des outils reste un défi. Les méthodes existantes nécessitent encore une intervention manuelle, dépendent d'environnements simulés non vérifiables, reposent exclusivement soit sur le réglage fin supervisé (SFT) soit sur l'apprentissage par renforcement (RL), et peinent avec un apprentissage stable à long terme et multi-tours. Pour relever ces défis, nous présentons ASTRA, un cadre entièrement automatisé de bout en bout pour l'entraînement d'agents de modèles de langage assistés d'outils via une synthèse de données évolutive et un apprentissage par renforcement vérifiable. ASTRA intègre deux composants complémentaires. Premièrement, un pipeline qui exploite la topologie statique des graphes d'appels d'outils synthétise des trajectoires diverses et structurellement fondées, instillant une compétence large et transférable dans l'utilisation d'outils. Deuxièmement, un cadre de synthèse d'environnements qui capture la topologie riche et compositionnelle du raisonnement sémantique humain convertit des traces question-réponse décomposées en environnements indépendants, exécutables en code et vérifiables par règles, permettant un RL multi-tours déterministe. Sur la base de cette méthode, nous développons une méthodologie d'entraînement unifiée qui intègre le SFT avec du RL en ligne en utilisant des récompenses au niveau de la trajectoire pour équilibrer l'accomplissement des tâches et l'efficacité de l'interaction. Les expériences sur plusieurs benchmarks d'utilisation d'outils agentiques démontrent que les modèles entraînés par ASTRA atteignent des performances de pointe à des échelles comparables, approchant les systèmes propriétaires tout en préservant la capacité de raisonnement fondamentale. Nous publions l'intégralité des pipelines, environnements et modèles entraînés à l'adresse https://github.com/LianjiaTech/astra.
English
Large language models (LLMs) are increasingly used as tool-augmented agents for multi-step decision making, yet training robust tool-using agents remains challenging. Existing methods still require manual intervention, depend on non-verifiable simulated environments, rely exclusively on either supervised fine-tuning (SFT) or reinforcement learning (RL), and struggle with stable long-horizon, multi-turn learning. To address these challenges, we introduce ASTRA, a fully automated end-to-end framework for training tool-augmented language model agents via scalable data synthesis and verifiable reinforcement learning. ASTRA integrates two complementary components. First, a pipeline that leverages the static topology of tool-call graphs synthesizes diverse, structurally grounded trajectories, instilling broad and transferable tool-use competence. Second, an environment synthesis framework that captures the rich, compositional topology of human semantic reasoning converts decomposed question-answer traces into independent, code-executable, and rule-verifiable environments, enabling deterministic multi-turn RL. Based on this method, we develop a unified training methodology that integrates SFT with online RL using trajectory-level rewards to balance task completion and interaction efficiency. Experiments on multiple agentic tool-use benchmarks demonstrate that ASTRA-trained models achieve state-of-the-art performance at comparable scales, approaching closed-source systems while preserving core reasoning ability. We release the full pipelines, environments, and trained models at https://github.com/LianjiaTech/astra.