TRACE : Formation Agentique Ciblée sur les Capacités

Résumé

Les modèles de langage de grande taille (LLM) déployés dans des environnements agentiels doivent mobiliser de multiples capacités à travers différentes instances de tâches, une capacité étant définie comme l'exécution d'une ou plusieurs actions dans une trajectoire qui sont nécessaires pour résoudre avec succès un sous-ensemble de tâches dans l'environnement. De nombreuses approches existantes reposent soit sur des données d'entraînement synthétiques qui ne ciblent pas les déficits réels de capacité du modèle dans l'environnement cible, soit sur un entraînement direct dans l'environnement cible, où le modèle doit apprendre implicitement les capacités à travers les tâches. Nous présentons TRACE (Transformer les Échecs Agentiels Récurrents en Environnements d'Entraînement Ciblés sur les Capacités), un système end-to-end pour l'auto-amélioration d'agents spécifiques à un environnement. TRACE compare les trajectoires réussies et échouées pour identifier automatiquement les capacités déficitaires, synthétise un environnement d'entraînement ciblé pour chacune d'elles qui récompense l'exercice de la capacité, et entraîne un adaptateur LoRA par apprentissage par renforcement sur chaque environnement synthétique, en acheminant vers l'adaptateur pertinent lors de l'inférence. Empiriquement, TRACE généralise à travers différents environnements, améliorant l'agent de base de +14,1 points sur τ²-bench (service client) et de +7 scores parfaits sur ToolSandbox (utilisation d'outils), surpassant respectivement la baseline la plus forte de +7,4 points et +4 scores parfaits. Pour un nombre identique de déploiements, TRACE s'adapte plus efficacement que les baselines, surpassant GRPO et GEPA de +9,2 et +7,4 points sur τ²-bench.

English

Large Language Models (LLMs) deployed in agentic environments must exercise multiple capabilities across different task instances, where a capability is performing one or more actions in a trajectory that are necessary for successfully solving a subset of tasks in the environment. Many existing approaches either rely on synthetic training data that is not targeted to the model's actual capability deficits in the target environment or train directly on the target environment, where the model needs to implicitly learn the capabilities across tasks. We introduce TRACE (Turning Recurrent Agent failures into Capability-targeted training Environments), an end-to-end system for environment-specific agent self-improvement. TRACE contrasts successful and failed trajectories to automatically identify lacking capabilities, synthesizes a targeted training environment for each that rewards whether the capability was exercised, and trains a LoRA adapter via RL on each synthetic environment, routing to the relevant adapter at inference. Empirically, TRACE generalizes across different environments, improving over the base agent by +14.1 points on τ^2-bench (customer service) and +7 perfect scores on ToolSandbox (tool use), outperforming the strongest baseline by +7.4 points and +4 perfect scores, respectively. Given the same number of rollouts, TRACE scales more efficiently than baselines, outperforming GRPO and GEPA by +9.2 and +7.4 points on τ^2-bench.

TRACE : Formation Agentique Ciblée sur les Capacités

TRACE: Capability-Targeted Agentic Training

Résumé

Support