ASTRA: Sintesi Automatica di Traiettorie Agenti e Aree di Rinforzo
ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas
January 29, 2026
Autori: Xiaoyu Tian, Haotian Wang, Shuaiting Chen, Hao Zhou, Kaichi Yu, Yudian Zhang, Jade Ouyang, Junxi Yin, Jiong Chen, Baoyan Guo, Lei Zhang, Junjie Tao, Yuansheng Song, Ming Cui, Chengwei Liu
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) sono sempre più utilizzati come agenti potenziati da strumenti per processi decisionali multi-step, ma l'addestramento di agenti robusti nell'uso di strumenti rimane una sfida. I metodi esistenti richiedono ancora interventi manuali, dipendono da ambienti simulati non verificabili, si basano esclusivamente su fine-tuning supervisionato (SFT) o apprendimento per rinforzo (RL), e incontrano difficoltà nell'apprendimento stabile di orizzonti temporali lunghi e interazioni multi-turn. Per affrontare queste problematiche, introduciamo ASTRA, un framework end-to-end completamente automatizzato per l'addestramento di agenti basati su modelli linguistici potenziati da strumenti, attraverso sintesi scalabile di dati e apprendimento per rinforzo verificabile. ASTRA integra due componenti complementari. In primo luogo, una pipeline che sfrutta la topologia statica dei grafi di chiamate di strumenti sintetizza traiettorie diversificate e strutturalmente fondate, instillando una competenza ampia e trasferibile nell'uso degli strumenti. In secondo luogo, un framework di sintesi ambientale che cattura la ricca topologia compositiva del ragionamento semantico umano converte tracce domanda-risposta scomposte in ambienti indipendenti, eseguibili come codice e verificabili tramite regole, abilitando un RL multi-turn deterministico. Basandoci su questo metodo, sviluppiamo una metodologia di addestramento unificata che integra SFT con RL online utilizzando ricompense a livello di traiettoria per bilanciare il completamento del compito e l'efficienza interattiva. Esperimenti su molteplici benchmark per l'uso agentico di strumenti dimostrano che i modelli addestrati con ASTRA raggiungono prestazioni allo stato dell'arte a scale comparabili, avvicinandosi a sistemi closed-source preservando al contempo le capacità di ragionamento fondamentali. Rilasciamo le pipeline complete, gli ambienti e i modelli addestrati su https://github.com/LianjiaTech/astra.
English
Large language models (LLMs) are increasingly used as tool-augmented agents for multi-step decision making, yet training robust tool-using agents remains challenging. Existing methods still require manual intervention, depend on non-verifiable simulated environments, rely exclusively on either supervised fine-tuning (SFT) or reinforcement learning (RL), and struggle with stable long-horizon, multi-turn learning. To address these challenges, we introduce ASTRA, a fully automated end-to-end framework for training tool-augmented language model agents via scalable data synthesis and verifiable reinforcement learning. ASTRA integrates two complementary components. First, a pipeline that leverages the static topology of tool-call graphs synthesizes diverse, structurally grounded trajectories, instilling broad and transferable tool-use competence. Second, an environment synthesis framework that captures the rich, compositional topology of human semantic reasoning converts decomposed question-answer traces into independent, code-executable, and rule-verifiable environments, enabling deterministic multi-turn RL. Based on this method, we develop a unified training methodology that integrates SFT with online RL using trajectory-level rewards to balance task completion and interaction efficiency. Experiments on multiple agentic tool-use benchmarks demonstrate that ASTRA-trained models achieve state-of-the-art performance at comparable scales, approaching closed-source systems while preserving core reasoning ability. We release the full pipelines, environments, and trained models at https://github.com/LianjiaTech/astra.