Обучение обучению во время тестирования: Языковые агенты с обучаемыми политиками адаптации

Аннотация

Обучение во время тестирования (TTL) позволяет языковым агентам итеративно улучшать свою производительность за счет многократных взаимодействий со средой на этапе вывода. В основе TTL лежит политика адаптации, которая обновляет политику актора на основе опыта, полученного в предыдущих эпизодах, тем самым улучшая будущее поведение. Существующие методы полагаются на фиксированные, созданные вручную политики адаптации, а не оптимизируют их для последующего улучшения. Мы утверждаем, что оптимальные политики адаптации должны изучаться из сред задач, а не проектироваться вручную на основе человеческой интуиции. Для достижения этой цели мы представляем Meta-TTL — фреймворк, который формулирует поиск эффективных политик адаптации как задачу двухуровневой оптимизации. В рамках этого фреймворка внутренний цикл выполняет стандартный процесс TTL, измеряя, насколько эффективно кандидатная политика адаптации помогает агенту исправлять ошибки в последовательных эпизодах. Руководствуясь производительностью агента, внешний цикл использует эволюционный поиск по разнообразному распределению обучающих задач для итеративного улучшения политики адаптации. Мы оцениваем Meta-TTL на платформах Jericho и WebArena-Lite как в условиях внутрираспределительных (ID), так и внераспределительных (OOD) данных, используя несколько мета-агентных архитектур. Результаты на обоих бенчмарках показывают, что Meta-TTL стабильно превосходит созданные вручную базовые методы, что свидетельствует о том, что оптимизированная политика адаптации кодирует переносимые стратегии, обобщающиеся за пределы распределения обучающих задач.

English

Test-Time Learning (TTL) enables language agents to iteratively refine their performance through repeated interactions with the environment at inference time. At the core of TTL is an adaptation policy that updates the actor policy based on experience from previous episodes, thereby improving future behavior. Existing methods rely on fixed, hand-crafted adaptation policies rather than optimizing them for downstream improvement. We argue that optimal adaptation policies should be learned from task environments, not hand-engineered based on human intuition. To achieve this, we introduce Meta-TTL, a framework that formulates the discovery of effective adaptation policies as a bi-level optimization problem. Within this framework, the inner loop executes the standard TTL process, measuring how effectively a candidate adaptation policy helps an agent correct errors across sequential episodes. Guided by the agent's performance, the outer loop employs evolutionary search over a diverse distribution of training tasks to iteratively refine the adaptation policy. We evaluate Meta-TTL on Jericho and WebArena-Lite across both in-distribution (ID) and out-of-distribution (OOD) settings, using multiple meta-agent backbones. Results on both benchmarks show that Meta-TTL consistently outperforms hand-crafted baselines, suggesting that the optimized adaptation policy encodes transferable strategies that generalize beyond the training task distribution.

Обучение обучению во время тестирования: Языковые агенты с обучаемыми политиками адаптации

Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies

Аннотация

Support