ASTRA: Geautomatiseerde Synthese van Agentiële Trajecten en Versterkingsarena's
ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas
January 29, 2026
Auteurs: Xiaoyu Tian, Haotian Wang, Shuaiting Chen, Hao Zhou, Kaichi Yu, Yudian Zhang, Jade Ouyang, Junxi Yin, Jiong Chen, Baoyan Guo, Lei Zhang, Junjie Tao, Yuansheng Song, Ming Cui, Chengwei Liu
cs.AI
Samenvatting
Grote taalmodellen (LLM's) worden steeds vaker ingezet als tool-augmented agents voor meerstaps besluitvorming, maar het trainen van robuuste tool-gebruikende agents blijft een uitdaging. Bestaande methoden vereisen nog steeds handmatige interventie, zijn afhankelijk van niet-verifieerbare gesimuleerde omgevingen, vertrouwen uitsluitend op supervised fine-tuning (SFT) of reinforcement learning (RL), en worstelen met stabiel leren over lange horizonten met meerdere beurten. Om deze uitdagingen aan te pakken, introduceren we ASTRA, een volledig geautomatiseerd end-to-end framework voor het trainen van tool-augmented taalmodel agents via schaalbare datasynthese en verifieerbare reinforcement learning. ASTRA integreert twee complementaire componenten. Ten eerste synthetiseert een pipeline die gebruikmaakt van de statische topologie van tool-aanroepgrafieken diverse, structureel onderbouwde trajecten, waarmee een brede en overdraagbare competentie in tool-gebruik wordt aangekweekt. Ten tweede zet een kader voor omgevingssynthese, dat de rijke, compositionele topologie van menselijke semantische redenering vastlegt, ontbonden vraag-antwoordsporen om in onafhankelijke, code-uitvoerbare en regel-verifieerbare omgevingen, waardoor deterministische meerbeurten-RL mogelijk wordt. Gebaseerd op deze methode ontwikkelen we een uniforme trainingsmethodologie die SFT integreert met online RL met behulp van trajectniveau beloningen om taakvoltooiing en interactie-efficiëntie in evenwicht te brengen. Experimenten op meerdere benchmarks voor agentisch tool-gebruik tonen aan dat met ASTRA getrainde modellen state-of-the-art prestaties bereiken op vergelijkbare schaal, waarbij ze gesloten bron systemen benaderen terwijl de kernredeneervaardigheid behouden blijft. We maken de volledige pipelines, omgevingen en getrainde modellen beschikbaar op https://github.com/LianjiaTech/astra.
English
Large language models (LLMs) are increasingly used as tool-augmented agents for multi-step decision making, yet training robust tool-using agents remains challenging. Existing methods still require manual intervention, depend on non-verifiable simulated environments, rely exclusively on either supervised fine-tuning (SFT) or reinforcement learning (RL), and struggle with stable long-horizon, multi-turn learning. To address these challenges, we introduce ASTRA, a fully automated end-to-end framework for training tool-augmented language model agents via scalable data synthesis and verifiable reinforcement learning. ASTRA integrates two complementary components. First, a pipeline that leverages the static topology of tool-call graphs synthesizes diverse, structurally grounded trajectories, instilling broad and transferable tool-use competence. Second, an environment synthesis framework that captures the rich, compositional topology of human semantic reasoning converts decomposed question-answer traces into independent, code-executable, and rule-verifiable environments, enabling deterministic multi-turn RL. Based on this method, we develop a unified training methodology that integrates SFT with online RL using trajectory-level rewards to balance task completion and interaction efficiency. Experiments on multiple agentic tool-use benchmarks demonstrate that ASTRA-trained models achieve state-of-the-art performance at comparable scales, approaching closed-source systems while preserving core reasoning ability. We release the full pipelines, environments, and trained models at https://github.com/LianjiaTech/astra.