ASTRA: Geautomatiseerde Synthese van Agentiële Trajecten en Versterkingsarena's

Samenvatting

Grote taalmodellen (LLM's) worden steeds vaker ingezet als tool-augmented agents voor meerstaps besluitvorming, maar het trainen van robuuste tool-gebruikende agents blijft een uitdaging. Bestaande methoden vereisen nog steeds handmatige interventie, zijn afhankelijk van niet-verifieerbare gesimuleerde omgevingen, vertrouwen uitsluitend op supervised fine-tuning (SFT) of reinforcement learning (RL), en worstelen met stabiel leren over lange horizonten met meerdere beurten. Om deze uitdagingen aan te pakken, introduceren we ASTRA, een volledig geautomatiseerd end-to-end framework voor het trainen van tool-augmented taalmodel agents via schaalbare datasynthese en verifieerbare reinforcement learning. ASTRA integreert twee complementaire componenten. Ten eerste synthetiseert een pipeline die gebruikmaakt van de statische topologie van tool-aanroepgrafieken diverse, structureel onderbouwde trajecten, waarmee een brede en overdraagbare competentie in tool-gebruik wordt aangekweekt. Ten tweede zet een kader voor omgevingssynthese, dat de rijke, compositionele topologie van menselijke semantische redenering vastlegt, ontbonden vraag-antwoordsporen om in onafhankelijke, code-uitvoerbare en regel-verifieerbare omgevingen, waardoor deterministische meerbeurten-RL mogelijk wordt. Gebaseerd op deze methode ontwikkelen we een uniforme trainingsmethodologie die SFT integreert met online RL met behulp van trajectniveau beloningen om taakvoltooiing en interactie-efficiëntie in evenwicht te brengen. Experimenten op meerdere benchmarks voor agentisch tool-gebruik tonen aan dat met ASTRA getrainde modellen state-of-the-art prestaties bereiken op vergelijkbare schaal, waarbij ze gesloten bron systemen benaderen terwijl de kernredeneervaardigheid behouden blijft. We maken de volledige pipelines, omgevingen en getrainde modellen beschikbaar op https://github.com/LianjiaTech/astra.

English

Large language models (LLMs) are increasingly used as tool-augmented agents for multi-step decision making, yet training robust tool-using agents remains challenging. Existing methods still require manual intervention, depend on non-verifiable simulated environments, rely exclusively on either supervised fine-tuning (SFT) or reinforcement learning (RL), and struggle with stable long-horizon, multi-turn learning. To address these challenges, we introduce ASTRA, a fully automated end-to-end framework for training tool-augmented language model agents via scalable data synthesis and verifiable reinforcement learning. ASTRA integrates two complementary components. First, a pipeline that leverages the static topology of tool-call graphs synthesizes diverse, structurally grounded trajectories, instilling broad and transferable tool-use competence. Second, an environment synthesis framework that captures the rich, compositional topology of human semantic reasoning converts decomposed question-answer traces into independent, code-executable, and rule-verifiable environments, enabling deterministic multi-turn RL. Based on this method, we develop a unified training methodology that integrates SFT with online RL using trajectory-level rewards to balance task completion and interaction efficiency. Experiments on multiple agentic tool-use benchmarks demonstrate that ASTRA-trained models achieve state-of-the-art performance at comparable scales, approaching closed-source systems while preserving core reasoning ability. We release the full pipelines, environments, and trained models at https://github.com/LianjiaTech/astra.

ASTRA: Geautomatiseerde Synthese van Agentiële Trajecten en Versterkingsarena's

ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

Samenvatting

Support