ASTRA: Síntesis Automatizada de Trayectorias Agénticas y Arenas de Refuerzo
ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas
January 29, 2026
Autores: Xiaoyu Tian, Haotian Wang, Shuaiting Chen, Hao Zhou, Kaichi Yu, Yudian Zhang, Jade Ouyang, Junxi Yin, Jiong Chen, Baoyan Guo, Lei Zhang, Junjie Tao, Yuansheng Song, Ming Cui, Chengwei Liu
cs.AI
Resumen
Los modelos de lenguaje de gran tamaño (LLM) se utilizan cada vez más como agentes aumentados con herramientas para la toma de decisiones multi-etapa, sin embargo, entrenar agentes robustos que utilicen herramientas sigue siendo un desafío. Los métodos existentes aún requieren intervención manual, dependen de entornos simulados no verificables, se basan exclusivamente en el ajuste fino supervisado (SFT) o en el aprendizaje por refuerzo (RL), y tienen dificultades con un aprendizaje estable a largo plazo y multi-turno. Para abordar estos desafíos, presentamos ASTRA, un marco automatizado integral de extremo a extremo para entrenar agentes de modelos de lenguaje aumentados con herramientas mediante síntesis de datos escalable y aprendizaje por refuerzo verificable. ASTRA integra dos componentes complementarios. Primero, una canalización que aprovecha la topología estática de los grafos de llamadas a herramientas sintetiza trayectorias diversas y estructuralmente fundamentadas, inculcando una competencia amplia y transferible en el uso de herramientas. Segundo, un marco de síntesis de entornos que captura la topología rica y compositiva del razonamiento semántico humano convierte trazas de preguntas y respuestas descompuestas en entornos independientes, ejecutables mediante código y verificables mediante reglas, permitiendo un RL multi-turno determinista. Basándonos en este método, desarrollamos una metodología de entrenamiento unificada que integra SFT con RL en línea utilizando recompensas a nivel de trayectoria para equilibrar la finalización de la tarea y la eficiencia de la interacción. Los experimentos en múltiples benchmarks de uso de herramientas agentivas demuestran que los modelos entrenados con ASTRA logran un rendimiento de vanguardia a escalas comparables, aproximándose a sistemas de código cerrado mientras preservan la capacidad de razonamiento central. Publicamos las canalizaciones completas, los entornos y los modelos entrenados en https://github.com/LianjiaTech/astra.
English
Large language models (LLMs) are increasingly used as tool-augmented agents for multi-step decision making, yet training robust tool-using agents remains challenging. Existing methods still require manual intervention, depend on non-verifiable simulated environments, rely exclusively on either supervised fine-tuning (SFT) or reinforcement learning (RL), and struggle with stable long-horizon, multi-turn learning. To address these challenges, we introduce ASTRA, a fully automated end-to-end framework for training tool-augmented language model agents via scalable data synthesis and verifiable reinforcement learning. ASTRA integrates two complementary components. First, a pipeline that leverages the static topology of tool-call graphs synthesizes diverse, structurally grounded trajectories, instilling broad and transferable tool-use competence. Second, an environment synthesis framework that captures the rich, compositional topology of human semantic reasoning converts decomposed question-answer traces into independent, code-executable, and rule-verifiable environments, enabling deterministic multi-turn RL. Based on this method, we develop a unified training methodology that integrates SFT with online RL using trajectory-level rewards to balance task completion and interaction efficiency. Experiments on multiple agentic tool-use benchmarks demonstrate that ASTRA-trained models achieve state-of-the-art performance at comparable scales, approaching closed-source systems while preserving core reasoning ability. We release the full pipelines, environments, and trained models at https://github.com/LianjiaTech/astra.