TRACE: Fähigkeitsorientiertes agentisches Training

Zusammenfassung

Große Sprachmodelle (LLMs), die in agentenbasierten Umgebungen eingesetzt werden, müssen verschiedene Fähigkeiten über verschiedene Aufgabeninstanzen hinweg anwenden, wobei eine Fähigkeit als die Ausführung einer oder mehrerer Aktionen in einer Trajektorie definiert ist, die notwendig sind, um eine Teilmenge von Aufgaben in der Umgebung erfolgreich zu lösen. Viele bestehende Ansätze verlassen sich entweder auf synthetische Trainingsdaten, die nicht auf die tatsächlichen Fähigkeitsdefizite des Modells in der Zielumgebung abzielen, oder trainieren direkt auf der Zielumgebung, wobei das Modell die Fähigkeiten übergreifend über Aufgaben implizit erlernen muss. Wir stellen TRACE (Turning Recurrent Agent failures into Capability-targeted training Environments) vor, ein End-to-End-System zur umgebungsspezifischen Selbstverbesserung von Agenten. TRACE kontrastiert erfolgreiche und fehlgeschlagene Trajektorien, um automatisch mangelnde Fähigkeiten zu identifizieren, synthetisiert für jede davon eine gezielte Trainingsumgebung, die belohnt, ob die Fähigkeit ausgeübt wurde, und trainiert einen LoRA-Adapter mittels RL für jede synthetische Umgebung, wobei zur Inferenzzeit auf den relevanten Adapter zugegriffen wird. Empirisch generalisiert TRACE über verschiedene Umgebungen hinweg und verbessert den Basis-Agenten um +14,1 Punkte auf τ²-bench (Kundenservice) und um +7 perfekte Ergebnisse auf ToolSandbox (Werkzeugnutzung), wobei es den stärksten Baseline-Ansatz um +7,4 Punkte bzw. +4 perfekte Ergebnisse übertrifft. Bei gleicher Anzahl von Rollouts skaliert TRACE effizienter als die Baseline-Methoden und übertrifft GRPO und GEPA auf τ²-bench um +9,2 bzw. +7,4 Punkte.

English

Large Language Models (LLMs) deployed in agentic environments must exercise multiple capabilities across different task instances, where a capability is performing one or more actions in a trajectory that are necessary for successfully solving a subset of tasks in the environment. Many existing approaches either rely on synthetic training data that is not targeted to the model's actual capability deficits in the target environment or train directly on the target environment, where the model needs to implicitly learn the capabilities across tasks. We introduce TRACE (Turning Recurrent Agent failures into Capability-targeted training Environments), an end-to-end system for environment-specific agent self-improvement. TRACE contrasts successful and failed trajectories to automatically identify lacking capabilities, synthesizes a targeted training environment for each that rewards whether the capability was exercised, and trains a LoRA adapter via RL on each synthetic environment, routing to the relevant adapter at inference. Empirically, TRACE generalizes across different environments, improving over the base agent by +14.1 points on τ^2-bench (customer service) and +7 perfect scores on ToolSandbox (tool use), outperforming the strongest baseline by +7.4 points and +4 perfect scores, respectively. Given the same number of rollouts, TRACE scales more efficiently than baselines, outperforming GRPO and GEPA by +9.2 and +7.4 points on τ^2-bench.

TRACE: Fähigkeitsorientiertes agentisches Training

TRACE: Capability-Targeted Agentic Training

Zusammenfassung

Support