Leren Leren-tijdens-Toetsen: Taalagenten met Leerbare Aanpassingsbeleiden

Samenvatting

Test-Time Learning (TTL) stelt taalagentschappen in staat om hun prestaties iteratief te verfijnen door herhaalde interacties met de omgeving tijdens de inferentiefase. De kern van TTL wordt gevormd door een adaptatiebeleid dat het actorbeleid bijwerkt op basis van ervaring uit eerdere episodes, waardoor toekomstig gedrag verbetert. Bestaande methodes vertrouwen op vaste, handmatig ontworpen adaptatiebeleidsregels in plaats van deze te optimaliseren voor downstreamverbetering. Wij stellen dat optimale adaptatiebeleidsregels moeten worden geleerd uit taakomgevingen, en niet handmatig moeten worden ontworpen op basis van menselijke intuïtie. Om dit te bereiken introduceren we Meta-TTL, een raamwerk dat de ontdekking van effectieve adaptatiebeleidsregels formuleert als een bi-level optimalisatieprobleem. Binnen dit raamwerk voert de innerlijke lus het standaard TTL-proces uit, waarbij wordt gemeten hoe effectief een kandidaat-adaptatiebeleid een agent helpt om fouten te corrigeren in opeenvolgende episodes. Geleid door de prestaties van de agent, gebruikt de buitenste lus evolutionaire zoekopdrachten over een diverse distributie van trainingstaken om het adaptatiebeleid iteratief te verfijnen. We evalueren Meta-TTL op Jericho en WebArena-Lite in zowel in-distributie (ID) als out-of-distributie (OOD) settings, met gebruik van meerdere meta-agent backbones. Resultaten op beide benchmarks tonen aan dat Meta-TTL consistent beter presteert dan handmatig ontworpen baseline-methoden, wat suggereert dat het geoptimaliseerde adaptatiebeleid overdraagbare strategieën encodeert die generaliseren buiten de trainings-taakdistributie.

English

Test-Time Learning (TTL) enables language agents to iteratively refine their performance through repeated interactions with the environment at inference time. At the core of TTL is an adaptation policy that updates the actor policy based on experience from previous episodes, thereby improving future behavior. Existing methods rely on fixed, hand-crafted adaptation policies rather than optimizing them for downstream improvement. We argue that optimal adaptation policies should be learned from task environments, not hand-engineered based on human intuition. To achieve this, we introduce Meta-TTL, a framework that formulates the discovery of effective adaptation policies as a bi-level optimization problem. Within this framework, the inner loop executes the standard TTL process, measuring how effectively a candidate adaptation policy helps an agent correct errors across sequential episodes. Guided by the agent's performance, the outer loop employs evolutionary search over a diverse distribution of training tasks to iteratively refine the adaptation policy. We evaluate Meta-TTL on Jericho and WebArena-Lite across both in-distribution (ID) and out-of-distribution (OOD) settings, using multiple meta-agent backbones. Results on both benchmarks show that Meta-TTL consistently outperforms hand-crafted baselines, suggesting that the optimized adaptation policy encodes transferable strategies that generalize beyond the training task distribution.

Leren Leren-tijdens-Toetsen: Taalagenten met Leerbare Aanpassingsbeleiden

Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies

Samenvatting

Support