TRACE: Целевое агентное обучение, ориентированное на возможности

Аннотация

Крупные языковые модели (LLM), развернутые в агентских средах, должны демонстрировать множество способностей при выполнении различных экземпляров задач, где под способностью понимается выполнение одного или нескольких действий в траектории, необходимых для успешного решения подмножества задач в среде. Многие существующие подходы либо полагаются на синтетические обучающие данные, не ориентированные на реальные пробелы в способностях модели в целевой среде, либо обучают модель непосредственно на целевой среде, где модель должна неявно осваивать необходимые способности для различных задач. Мы представляем TRACE (Turning Recurrent Agent failures into Capability-targeted training Environments) — сквозную систему для самостоятельного улучшения агента, специфичного для конкретной среды. TRACE сравнивает успешные и неудачные траектории, чтобы автоматически выявить недостающие способности, синтезирует целевую обучающую среду для каждой из них, которая вознаграждает за применение данной способности, и обучает адаптер LoRA с помощью обучения с подкреплением на каждой синтетической среде, используя соответствующий адаптер на этапе вывода. Экспериментально показано, что TRACE обобщает для различных сред, улучшая показатели базового агента на +14.1 балла на τ²-bench (обслуживание клиентов) и на +7 идеальных результатов на ToolSandbox (использование инструментов), превосходя самый сильный базовый метод на +7.4 балла и +4 идеальных результата соответственно. При одинаковом количестве прогонов TRACE масштабируется эффективнее базовых методов, превосходя GRPO и GEPA на +9.2 и +7.4 балла на τ²-bench.

English

Large Language Models (LLMs) deployed in agentic environments must exercise multiple capabilities across different task instances, where a capability is performing one or more actions in a trajectory that are necessary for successfully solving a subset of tasks in the environment. Many existing approaches either rely on synthetic training data that is not targeted to the model's actual capability deficits in the target environment or train directly on the target environment, where the model needs to implicitly learn the capabilities across tasks. We introduce TRACE (Turning Recurrent Agent failures into Capability-targeted training Environments), an end-to-end system for environment-specific agent self-improvement. TRACE contrasts successful and failed trajectories to automatically identify lacking capabilities, synthesizes a targeted training environment for each that rewards whether the capability was exercised, and trains a LoRA adapter via RL on each synthetic environment, routing to the relevant adapter at inference. Empirically, TRACE generalizes across different environments, improving over the base agent by +14.1 points on τ^2-bench (customer service) and +7 perfect scores on ToolSandbox (tool use), outperforming the strongest baseline by +7.4 points and +4 perfect scores, respectively. Given the same number of rollouts, TRACE scales more efficiently than baselines, outperforming GRPO and GEPA by +9.2 and +7.4 points on τ^2-bench.

TRACE: Целевое агентное обучение, ориентированное на возможности

TRACE: Capability-Targeted Agentic Training

Аннотация

Support