RASTRO: Treinamento Agêntico Orientado por Capacidades

Resumo

Os Modelos de Linguagem de Grande Porte (LLMs) implantados em ambientes de agência devem exercer múltiplas capacidades em diferentes instâncias de tarefas, onde uma capacidade é a execução de uma ou mais ações em uma trajetória que são necessárias para resolver com sucesso um subconjunto de tarefas no ambiente. Muitas abordagens existentes ou dependem de dados de treinamento sintéticos que não são direcionados aos déficits reais de capacidade do modelo no ambiente de destino, ou treinam diretamente no ambiente de destino, onde o modelo precisa aprender implicitamente as capacidades entre as tarefas. Apresentamos o TRACE (*Turning Recurrent Agent failures into Capability-targeted training Environments*), um sistema de ponta a ponta para o autoaprimoramento de agentes específico do ambiente. O TRACE contrasta trajetórias bem-sucedidas e mal-sucedidas para identificar automaticamente capacidades deficitárias, sintetiza um ambiente de treinamento direcionado para cada uma que recompensa se a capacidade foi exercida e treina um adaptador LoRA via RL em cada ambiente sintético, roteando para o adaptador relevante durante a inferência. Empiricamente, o TRACE generaliza entre diferentes ambientes, melhorando o agente base em +14,1 pontos no τ²-bench (atendimento ao cliente) e +7 pontuações perfeitas no ToolSandbox (uso de ferramentas), superando a linha de base mais forte em +7,4 pontos e +4 pontuações perfeitas, respectivamente. Dado o mesmo número de *rollouts*, o TRACE escala com mais eficiência do que as linhas de base, superando o GRPO e o GEPA em +9,2 e +7,4 pontos no τ²-bench.

English

Large Language Models (LLMs) deployed in agentic environments must exercise multiple capabilities across different task instances, where a capability is performing one or more actions in a trajectory that are necessary for successfully solving a subset of tasks in the environment. Many existing approaches either rely on synthetic training data that is not targeted to the model's actual capability deficits in the target environment or train directly on the target environment, where the model needs to implicitly learn the capabilities across tasks. We introduce TRACE (Turning Recurrent Agent failures into Capability-targeted training Environments), an end-to-end system for environment-specific agent self-improvement. TRACE contrasts successful and failed trajectories to automatically identify lacking capabilities, synthesizes a targeted training environment for each that rewards whether the capability was exercised, and trains a LoRA adapter via RL on each synthetic environment, routing to the relevant adapter at inference. Empirically, TRACE generalizes across different environments, improving over the base agent by +14.1 points on τ^2-bench (customer service) and +7 perfect scores on ToolSandbox (tool use), outperforming the strongest baseline by +7.4 points and +4 perfect scores, respectively. Given the same number of rollouts, TRACE scales more efficiently than baselines, outperforming GRPO and GEPA by +9.2 and +7.4 points on τ^2-bench.

RASTRO: Treinamento Agêntico Orientado por Capacidades

TRACE: Capability-Targeted Agentic Training

Resumo

Support