ChatPaper.aiChatPaper

ASTRA: Síntese Automatizada de Trajetórias Agênticas e Arenas de Reforço

ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

January 29, 2026
Autores: Xiaoyu Tian, Haotian Wang, Shuaiting Chen, Hao Zhou, Kaichi Yu, Yudian Zhang, Jade Ouyang, Junxi Yin, Jiong Chen, Baoyan Guo, Lei Zhang, Junjie Tao, Yuansheng Song, Ming Cui, Chengwei Liu
cs.AI

Resumo

Os modelos de linguagem de grande escala (LLMs) são cada vez mais utilizados como agentes aumentados por ferramentas para tomada de decisão multi-etapas, contudo, o treinamento de agentes robustos no uso de ferramentas permanece um desafio. Os métodos existentes ainda exigem intervenção manual, dependem de ambientes simulados não verificáveis, baseiam-se exclusivamente em ajuste fino supervisionado (SFT) ou aprendizagem por reforço (RL), e lutam com um aprendizado estável de longo horizonte e multi-turno. Para enfrentar esses desafios, introduzimos a ASTRA, uma estrutura automatizada de ponta a ponta para treinar agentes de modelo de linguagem aumentados por ferramentas via síntese escalável de dados e aprendizagem por reforço verificável. A ASTRA integra dois componentes complementares. Primeiro, um *pipeline* que aproveita a topologia estática de grafos de chamadas de ferramentas sintetiza trajetórias diversificadas e estruturalmente fundamentadas, incutindo uma competência ampla e transferível no uso de ferramentas. Segundo, uma estrutura de síntese de ambiente que captura a topologia composicional e rica do raciocínio semântico humano converte rastros de perguntas e respostas decompostas em ambientes independentes, executáveis por código e verificáveis por regras, permitindo RL multi-turno determinístico. Com base neste método, desenvolvemos uma metodologia de treinamento unificada que integra SFT com RL online usando recompensas a nível de trajetória para equilibrar a conclusão da tarefa e a eficiência da interação. Experimentos em múltiplos benchmarks de uso de ferramentas agentivas demonstram que os modelos treinados com ASTRA alcançam desempenho de última geração em escalas comparáveis, aproximando-se de sistemas de código fechado enquanto preservam a capacidade de raciocínio central. Disponibilizamos os *pipelines* completos, ambientes e modelos treinados em https://github.com/LianjiaTech/astra.
English
Large language models (LLMs) are increasingly used as tool-augmented agents for multi-step decision making, yet training robust tool-using agents remains challenging. Existing methods still require manual intervention, depend on non-verifiable simulated environments, rely exclusively on either supervised fine-tuning (SFT) or reinforcement learning (RL), and struggle with stable long-horizon, multi-turn learning. To address these challenges, we introduce ASTRA, a fully automated end-to-end framework for training tool-augmented language model agents via scalable data synthesis and verifiable reinforcement learning. ASTRA integrates two complementary components. First, a pipeline that leverages the static topology of tool-call graphs synthesizes diverse, structurally grounded trajectories, instilling broad and transferable tool-use competence. Second, an environment synthesis framework that captures the rich, compositional topology of human semantic reasoning converts decomposed question-answer traces into independent, code-executable, and rule-verifiable environments, enabling deterministic multi-turn RL. Based on this method, we develop a unified training methodology that integrates SFT with online RL using trajectory-level rewards to balance task completion and interaction efficiency. Experiments on multiple agentic tool-use benchmarks demonstrate that ASTRA-trained models achieve state-of-the-art performance at comparable scales, approaching closed-source systems while preserving core reasoning ability. We release the full pipelines, environments, and trained models at https://github.com/LianjiaTech/astra.
PDF584February 27, 2026