ASTRA: Síntese Automatizada de Trajetórias Agênticas e Arenas de Reforço

Resumo

Os modelos de linguagem de grande escala (LLMs) são cada vez mais utilizados como agentes aumentados por ferramentas para tomada de decisão multi-etapas, contudo, o treinamento de agentes robustos no uso de ferramentas permanece um desafio. Os métodos existentes ainda exigem intervenção manual, dependem de ambientes simulados não verificáveis, baseiam-se exclusivamente em ajuste fino supervisionado (SFT) ou aprendizagem por reforço (RL), e lutam com um aprendizado estável de longo horizonte e multi-turno. Para enfrentar esses desafios, introduzimos a ASTRA, uma estrutura automatizada de ponta a ponta para treinar agentes de modelo de linguagem aumentados por ferramentas via síntese escalável de dados e aprendizagem por reforço verificável. A ASTRA integra dois componentes complementares. Primeiro, um *pipeline* que aproveita a topologia estática de grafos de chamadas de ferramentas sintetiza trajetórias diversificadas e estruturalmente fundamentadas, incutindo uma competência ampla e transferível no uso de ferramentas. Segundo, uma estrutura de síntese de ambiente que captura a topologia composicional e rica do raciocínio semântico humano converte rastros de perguntas e respostas decompostas em ambientes independentes, executáveis por código e verificáveis por regras, permitindo RL multi-turno determinístico. Com base neste método, desenvolvemos uma metodologia de treinamento unificada que integra SFT com RL online usando recompensas a nível de trajetória para equilibrar a conclusão da tarefa e a eficiência da interação. Experimentos em múltiplos benchmarks de uso de ferramentas agentivas demonstram que os modelos treinados com ASTRA alcançam desempenho de última geração em escalas comparáveis, aproximando-se de sistemas de código fechado enquanto preservam a capacidade de raciocínio central. Disponibilizamos os *pipelines* completos, ambientes e modelos treinados em https://github.com/LianjiaTech/astra.

English

Large language models (LLMs) are increasingly used as tool-augmented agents for multi-step decision making, yet training robust tool-using agents remains challenging. Existing methods still require manual intervention, depend on non-verifiable simulated environments, rely exclusively on either supervised fine-tuning (SFT) or reinforcement learning (RL), and struggle with stable long-horizon, multi-turn learning. To address these challenges, we introduce ASTRA, a fully automated end-to-end framework for training tool-augmented language model agents via scalable data synthesis and verifiable reinforcement learning. ASTRA integrates two complementary components. First, a pipeline that leverages the static topology of tool-call graphs synthesizes diverse, structurally grounded trajectories, instilling broad and transferable tool-use competence. Second, an environment synthesis framework that captures the rich, compositional topology of human semantic reasoning converts decomposed question-answer traces into independent, code-executable, and rule-verifiable environments, enabling deterministic multi-turn RL. Based on this method, we develop a unified training methodology that integrates SFT with online RL using trajectory-level rewards to balance task completion and interaction efficiency. Experiments on multiple agentic tool-use benchmarks demonstrate that ASTRA-trained models achieve state-of-the-art performance at comparable scales, approaching closed-source systems while preserving core reasoning ability. We release the full pipelines, environments, and trained models at https://github.com/LianjiaTech/astra.

ASTRA: Síntese Automatizada de Trajetórias Agênticas e Arenas de Reforço

ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

Resumo

Support