La méta-apprentissage par renforcement induit l'exploration chez les agents linguistiques
Meta-RL Induces Exploration in Language Agents
December 18, 2025
papers.authors: Yulun Jiang, Liangze Jiang, Damien Teney, Michael Moor, Maria Brbic
cs.AI
papers.abstract
L'apprentissage par renforcement (RL) a permis d'entraîner des agents basés sur de grands modèles de langage (LLM) à interagir avec l'environnement pour résoudre des tâches séquentielles à long horizon. Cependant, ces agents entraînés par RL éprouvent souvent des difficultés dans les tâches nécessitant une exploration active et peinent à s'adapter efficacement à partir d'expériences par essais et erreurs. Dans cet article, nous présentons LaMer, un cadre Méta-RL général qui permet aux agents LLM d'explorer activement et d'apprendre des retours de l'environnement lors de la phase de test. LaMer comprend deux composants clés : (i) un cadre d'entraînement inter-épisodes pour encourager l'exploration et l'optimisation des récompenses à long terme ; et (ii) une adaptation de politique contextuelle par réflexion, permettant à l'agent d'adapter sa politique à partir du signal de retour de la tâche sans mise à jour par gradient. Les expériences menées dans divers environnements montrent que LaMer améliore significativement les performances par rapport aux méthodes de RL de référence, avec des gains de performances de 11 %, 14 % et 19 % sur Sokoban, MineSweeper et Webshop, respectivement. De plus, LaMer démontre également une meilleure généralisation pour des tâches plus difficiles ou non rencontrées précédemment par rapport aux agents entraînés par RL. Globalement, nos résultats démontrent que le Méta-RL offre une approche principée pour induire l'exploration chez les agents langagiers, permettant une adaptation plus robuste à de nouveaux environnements grâce à des stratégies d'exploration apprises.
English
Reinforcement learning (RL) has enabled the training of large language model (LLM) agents to interact with the environment and to solve multi-turn long-horizon tasks. However, the RL-trained agents often struggle in tasks that require active exploration and fail to efficiently adapt from trial-and-error experiences. In this paper, we present LaMer, a general Meta-RL framework that enables LLM agents to actively explore and learn from the environment feedback at test time. LaMer consists of two key components: (i) a cross-episode training framework to encourage exploration and long-term rewards optimization; and (ii) in-context policy adaptation via reflection, allowing the agent to adapt their policy from task feedback signal without gradient update. Experiments across diverse environments show that LaMer significantly improves performance over RL baselines, with 11%, 14%, and 19% performance gains on Sokoban, MineSweeper and Webshop, respectively. Moreover, LaMer also demonstrates better generalization to more challenging or previously unseen tasks compared to the RL-trained agents. Overall, our results demonstrate that Meta-RL provides a principled approach to induce exploration in language agents, enabling more robust adaptation to novel environments through learned exploration strategies.