ASTRA: Sintesi Automatica di Traiettorie Agenti e Aree di Rinforzo

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono sempre più utilizzati come agenti potenziati da strumenti per processi decisionali multi-step, ma l'addestramento di agenti robusti nell'uso di strumenti rimane una sfida. I metodi esistenti richiedono ancora interventi manuali, dipendono da ambienti simulati non verificabili, si basano esclusivamente su fine-tuning supervisionato (SFT) o apprendimento per rinforzo (RL), e incontrano difficoltà nell'apprendimento stabile di orizzonti temporali lunghi e interazioni multi-turn. Per affrontare queste problematiche, introduciamo ASTRA, un framework end-to-end completamente automatizzato per l'addestramento di agenti basati su modelli linguistici potenziati da strumenti, attraverso sintesi scalabile di dati e apprendimento per rinforzo verificabile. ASTRA integra due componenti complementari. In primo luogo, una pipeline che sfrutta la topologia statica dei grafi di chiamate di strumenti sintetizza traiettorie diversificate e strutturalmente fondate, instillando una competenza ampia e trasferibile nell'uso degli strumenti. In secondo luogo, un framework di sintesi ambientale che cattura la ricca topologia compositiva del ragionamento semantico umano converte tracce domanda-risposta scomposte in ambienti indipendenti, eseguibili come codice e verificabili tramite regole, abilitando un RL multi-turn deterministico. Basandoci su questo metodo, sviluppiamo una metodologia di addestramento unificata che integra SFT con RL online utilizzando ricompense a livello di traiettoria per bilanciare il completamento del compito e l'efficienza interattiva. Esperimenti su molteplici benchmark per l'uso agentico di strumenti dimostrano che i modelli addestrati con ASTRA raggiungono prestazioni allo stato dell'arte a scale comparabili, avvicinandosi a sistemi closed-source preservando al contempo le capacità di ragionamento fondamentali. Rilasciamo le pipeline complete, gli ambienti e i modelli addestrati su https://github.com/LianjiaTech/astra.

English

Large language models (LLMs) are increasingly used as tool-augmented agents for multi-step decision making, yet training robust tool-using agents remains challenging. Existing methods still require manual intervention, depend on non-verifiable simulated environments, rely exclusively on either supervised fine-tuning (SFT) or reinforcement learning (RL), and struggle with stable long-horizon, multi-turn learning. To address these challenges, we introduce ASTRA, a fully automated end-to-end framework for training tool-augmented language model agents via scalable data synthesis and verifiable reinforcement learning. ASTRA integrates two complementary components. First, a pipeline that leverages the static topology of tool-call graphs synthesizes diverse, structurally grounded trajectories, instilling broad and transferable tool-use competence. Second, an environment synthesis framework that captures the rich, compositional topology of human semantic reasoning converts decomposed question-answer traces into independent, code-executable, and rule-verifiable environments, enabling deterministic multi-turn RL. Based on this method, we develop a unified training methodology that integrates SFT with online RL using trajectory-level rewards to balance task completion and interaction efficiency. Experiments on multiple agentic tool-use benchmarks demonstrate that ASTRA-trained models achieve state-of-the-art performance at comparable scales, approaching closed-source systems while preserving core reasoning ability. We release the full pipelines, environments, and trained models at https://github.com/LianjiaTech/astra.

ASTRA: Sintesi Automatica di Traiettorie Agenti e Aree di Rinforzo

ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

Abstract

Support