Imparare a Imparare al Momento del Test: Agenti Linguistici con Politiche di Adattamento Apprendibili

Abstract

L'apprendimento al momento del test (Test-Time Learning, TTL) consente agli agenti linguistici di affinare iterativamente le proprie prestazioni attraverso interazioni ripetute con l'ambiente durante l'inferenza. Il cuore del TTL è una politica di adattamento che aggiorna la politica dell'attore sulla base dell'esperienza acquisita negli episodi precedenti, migliorando così il comportamento futuro. I metodi esistenti si basano su politiche di adattamento fisse e progettate manualmente, anziché ottimizzarle per un miglioramento a valle. Sosteniamo che le politiche di adattamento ottimali dovrebbero essere apprese dagli ambienti di compito, non ingegnerizzate manualmente sulla base dell'intuizione umana. Per raggiungere questo obiettivo, introduciamo Meta-TTL, un framework che formula la scoperta di politiche di adattamento efficaci come un problema di ottimizzazione a due livelli. All'interno di questo framework, il ciclo interno esegue il processo TTL standard, misurando quanto efficacemente una politica di adattamento candidata aiuta un agente a correggere gli errori attraverso episodi sequenziali. Guidato dalle prestazioni dell'agente, il ciclo esterno utilizza una ricerca evolutiva su una distribuzione diversificata di compiti di addestramento per affinare iterativamente la politica di adattamento. Valutiamo Meta-TTL su Jericho e WebArena-Lite sia in contesti in-distribuzione (ID) che out-of-distribuzione (OOD), utilizzando multiple architetture di meta-agenti. I risultati su entrambi i benchmark mostrano che Meta-TTL supera costantemente i baseline progettati manualmente, suggerendo che la politica di adattamento ottimizzata codifica strategie trasferibili che si generalizzano oltre la distribuzione dei compiti di addestramento.

English

Test-Time Learning (TTL) enables language agents to iteratively refine their performance through repeated interactions with the environment at inference time. At the core of TTL is an adaptation policy that updates the actor policy based on experience from previous episodes, thereby improving future behavior. Existing methods rely on fixed, hand-crafted adaptation policies rather than optimizing them for downstream improvement. We argue that optimal adaptation policies should be learned from task environments, not hand-engineered based on human intuition. To achieve this, we introduce Meta-TTL, a framework that formulates the discovery of effective adaptation policies as a bi-level optimization problem. Within this framework, the inner loop executes the standard TTL process, measuring how effectively a candidate adaptation policy helps an agent correct errors across sequential episodes. Guided by the agent's performance, the outer loop employs evolutionary search over a diverse distribution of training tasks to iteratively refine the adaptation policy. We evaluate Meta-TTL on Jericho and WebArena-Lite across both in-distribution (ID) and out-of-distribution (OOD) settings, using multiple meta-agent backbones. Results on both benchmarks show that Meta-TTL consistently outperforms hand-crafted baselines, suggesting that the optimized adaptation policy encodes transferable strategies that generalize beyond the training task distribution.

Imparare a Imparare al Momento del Test: Agenti Linguistici con Politiche di Adattamento Apprendibili

Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies

Abstract

Support