TRACE: Doelgerichte training van agentische capaciteiten

Samenvatting

Grote Taalmodellen (LLM's) die in agent-omgevingen worden ingezet, moeten meerdere capaciteiten kunnen toepassen over verschillende taakinstanties heen, waarbij een capaciteit wordt gedefinieerd als het uitvoeren van een of meer acties in een traject die noodzakelijk zijn om een subset van taken in de omgeving succesvol op te lossen. Veel bestaande benaderingen vertrouwen op synthetische trainingsdata die niet is afgestemd op de werkelijke tekortkomingen in de capaciteiten van het model in de doelomgeving, of trainen direct op de doelomgeving, waarbij het model de capaciteiten impliciet moet leren over taken heen. Wij introduceren TRACE (Turning Recurrent Agent failures into Capability-targeted training Environments), een end-to-end systeem voor omgevingsspecifieke zelfverbetering van agents. TRACE vergelijkt succesvolle en mislukte trajecten om automatisch ontbrekende capaciteiten te identificeren, synthetiseert een gerichte trainingsomgeving voor elk ervan die beloont of de capaciteit werd toegepast, en traint een LoRA-adapter via Reinforcement Learning (RL) op elke synthetische omgeving, waarbij tijdens de inferentie naar de relevante adapter wordt gerouteerd. Empirisch gezien generaliseert TRACE over verschillende omgevingen en verbetert het de basis-agent met +14,1 punten op τ²-bench (klantenservice) en +7 perfecte scores op ToolSandbox (gebruik van tools), waarmee het de sterkste baseline respectievelijk met +7,4 punten en +4 perfecte scores overtreft. Met hetzelfde aantal rollouts schaalt TRACE efficiënter dan de baselines en presteert het +9,2 en +7,4 punten beter dan respectievelijk GRPO en GEPA op τ²-bench.

English

Large Language Models (LLMs) deployed in agentic environments must exercise multiple capabilities across different task instances, where a capability is performing one or more actions in a trajectory that are necessary for successfully solving a subset of tasks in the environment. Many existing approaches either rely on synthetic training data that is not targeted to the model's actual capability deficits in the target environment or train directly on the target environment, where the model needs to implicitly learn the capabilities across tasks. We introduce TRACE (Turning Recurrent Agent failures into Capability-targeted training Environments), an end-to-end system for environment-specific agent self-improvement. TRACE contrasts successful and failed trajectories to automatically identify lacking capabilities, synthesizes a targeted training environment for each that rewards whether the capability was exercised, and trains a LoRA adapter via RL on each synthetic environment, routing to the relevant adapter at inference. Empirically, TRACE generalizes across different environments, improving over the base agent by +14.1 points on τ^2-bench (customer service) and +7 perfect scores on ToolSandbox (tool use), outperforming the strongest baseline by +7.4 points and +4 perfect scores, respectively. Given the same number of rollouts, TRACE scales more efficiently than baselines, outperforming GRPO and GEPA by +9.2 and +7.4 points on τ^2-bench.

TRACE: Doelgerichte training van agentische capaciteiten

TRACE: Capability-Targeted Agentic Training

Samenvatting

Support