Meta-RL induziert Exploration in Sprachagenten
Meta-RL Induces Exploration in Language Agents
December 18, 2025
papers.authors: Yulun Jiang, Liangze Jiang, Damien Teney, Michael Moor, Maria Brbic
cs.AI
papers.abstract
Reinforcement Learning (RL) hat es ermöglicht, große Sprachmodell-Agenten (LLM) so zu trainieren, dass sie mit der Umgebung interagieren und mehrstufige Aufgaben mit langem Planungshorizont lösen können. Allerdings haben RL-trainierte Agenten oft Schwierigkeiten bei Aufgaben, die aktive Exploration erfordern, und sie scheitern daran, sich effizient aus Trial-and-Error-Erfahrungen anzupassen. In diesem Artikel stellen wir LaMer vor, einen allgemeinen Meta-RL-Rahmen, der es LLM-Agenten ermöglicht, aktiv zu explorieren und aus der Umgebungsrückmeldung zur Testzeit zu lernen. LaMer besteht aus zwei Schlüsselkomponenten: (i) einem episodenübergreifenden Trainingsrahmen, um Exploration und die Optimierung langfristiger Belohnungen zu fördern; und (ii) einer kontextuellen Politikadaptation durch Reflexion, die es dem Agenten ermöglicht, seine Strategie anhand von Aufgabenrückmeldungen ohne Gradientenupdate anzupassen. Experimente in verschiedenen Umgebungen zeigen, dass LaMer die Leistung im Vergleich zu RL-Baselines signifikant verbessert, mit Leistungssteigerungen von 11 %, 14 % bzw. 19 % bei Sokoban, MineSweeper und Webshop. Darüber hinaus zeigt LaMer im Vergleich zu RL-trainierten Agenten auch eine bessere Generalisierungsfähigkeit für anspruchsvollere oder zuvor unbekannte Aufgaben. Insgesamt demonstrieren unsere Ergebnisse, dass Meta-RL einen prinzipiellen Ansatz bietet, um Exploration in Sprachagenten zu induzieren und eine robustere Anpassung an neue Umgebungen durch gelernte Explorationsstrategien zu ermöglichen.
English
Reinforcement learning (RL) has enabled the training of large language model (LLM) agents to interact with the environment and to solve multi-turn long-horizon tasks. However, the RL-trained agents often struggle in tasks that require active exploration and fail to efficiently adapt from trial-and-error experiences. In this paper, we present LaMer, a general Meta-RL framework that enables LLM agents to actively explore and learn from the environment feedback at test time. LaMer consists of two key components: (i) a cross-episode training framework to encourage exploration and long-term rewards optimization; and (ii) in-context policy adaptation via reflection, allowing the agent to adapt their policy from task feedback signal without gradient update. Experiments across diverse environments show that LaMer significantly improves performance over RL baselines, with 11%, 14%, and 19% performance gains on Sokoban, MineSweeper and Webshop, respectively. Moreover, LaMer also demonstrates better generalization to more challenging or previously unseen tasks compared to the RL-trained agents. Overall, our results demonstrate that Meta-RL provides a principled approach to induce exploration in language agents, enabling more robust adaptation to novel environments through learned exploration strategies.