Lernen zu Lernen-zur-Test-Zeit: Sprachagenten mit lernbaren Adaptionsrichtlinien

Zusammenfassung

Test-Time Learning (TTL) ermöglicht es Sprachagenten, ihre Leistung durch wiederholte Interaktionen mit der Umgebung zur Inferenzzeit iterativ zu verbessern. Kern von TTL ist eine Adaptionspolitik, die die Aktionspolitik auf Basis von Erfahrungen aus vorherigen Episoden anpasst und dadurch das zukünftige Verhalten verbessert. Bestehende Methoden verlassen sich auf feste, handgefertigte Adaptionspolitiken, anstatt sie für nachgelagerte Verbesserungen zu optimieren. Wir argumentieren, dass optimale Adaptionspolitiken aus Aufgabenumgebungen gelernt werden sollten, nicht auf Basis menschlicher Intuition handgestaltet. Um dies zu erreichen, führen wir Meta-TTL ein, ein Framework, das die Entdeckung effektiver Adaptionspolitiken als bi-level Optimierungsproblem formuliert. In diesem Framework führt die innere Schleife den standardmäßigen TTL-Prozess aus und misst, wie effektiv eine Kandidaten-Adaptionspolitik einem Agenten hilft, Fehler über aufeinanderfolgende Episoden zu korrigieren. Gesteuert durch die Leistung des Agenten verfeinert die äußere Schleife mithilfe evolutionärer Suche über eine diverse Verteilung von Trainingsaufgaben iterativ die Adaptionspolitik. Wir evaluieren Meta-TTL auf Jericho und WebArena-Lite sowohl in In-Distribution (ID) als auch Out-of-Distribution (OOD) Settings unter Verwendung mehrerer Meta-Agenten-Backbones. Die Ergebnisse auf beiden Benchmarks zeigen, dass Meta-TTL konsistent handgefertigte Baseline-Methoden übertrifft, was darauf hindeutet, dass die optimierte Adaptionspolitik übertragbare Strategien kodiert, die über die Trainingsaufgabenverteilung hinaus generalisieren.

English

Test-Time Learning (TTL) enables language agents to iteratively refine their performance through repeated interactions with the environment at inference time. At the core of TTL is an adaptation policy that updates the actor policy based on experience from previous episodes, thereby improving future behavior. Existing methods rely on fixed, hand-crafted adaptation policies rather than optimizing them for downstream improvement. We argue that optimal adaptation policies should be learned from task environments, not hand-engineered based on human intuition. To achieve this, we introduce Meta-TTL, a framework that formulates the discovery of effective adaptation policies as a bi-level optimization problem. Within this framework, the inner loop executes the standard TTL process, measuring how effectively a candidate adaptation policy helps an agent correct errors across sequential episodes. Guided by the agent's performance, the outer loop employs evolutionary search over a diverse distribution of training tasks to iteratively refine the adaptation policy. We evaluate Meta-TTL on Jericho and WebArena-Lite across both in-distribution (ID) and out-of-distribution (OOD) settings, using multiple meta-agent backbones. Results on both benchmarks show that Meta-TTL consistently outperforms hand-crafted baselines, suggesting that the optimized adaptation policy encodes transferable strategies that generalize beyond the training task distribution.

Lernen zu Lernen-zur-Test-Zeit: Sprachagenten mit lernbaren Adaptionsrichtlinien

Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies

Zusammenfassung

Support