El Meta-RL induce la exploración en agentes de lenguaje.
Meta-RL Induces Exploration in Language Agents
December 18, 2025
Autores: Yulun Jiang, Liangze Jiang, Damien Teney, Michael Moor, Maria Brbic
cs.AI
Resumen
El aprendizaje por refuerzo (RL) ha permitido entrenar agentes basados en modelos de lenguaje grandes (LLM) para interactuar con el entorno y resolver tareas secuenciales de largo horizonte. Sin embargo, estos agentes entrenados con RL a menudo presentan dificultades en tareas que requieren exploración activa y no logran adaptarse eficientemente a partir de experiencias de prueba y error. En este artículo, presentamos LaMer, un marco general de Meta-RL que permite a los agentes LLM explorar activamente y aprender de la retroalimentación del entorno durante la fase de prueba. LaMer consta de dos componentes clave: (i) un marco de entrenamiento transversal entre episodios para fomentar la exploración y la optimización de recompensas a largo plazo; y (ii) una adaptación de políticas en contexto mediante reflexión, que permite al agente adaptar su política a partir de señales de retroalimentación de la tarea sin actualizaciones de gradiente. Los experimentos en diversos entornos muestran que LaMer mejora significativamente el rendimiento respecto a los baselines de RL, con ganancias del 11%, 14% y 19% en Sokoban, Buscaminas y Webshop, respectivamente. Además, LaMer también demuestra una mejor generalización a tareas más desafiantes o previamente no vistas en comparación con los agentes entrenados con RL. En conjunto, nuestros resultados demuestran que el Meta-RL proporciona un enfoque fundamentado para inducir exploración en agentes de lenguaje, permitiendo una adaptación más robusta a entornos novedosos mediante estrategias de exploración aprendidas.
English
Reinforcement learning (RL) has enabled the training of large language model (LLM) agents to interact with the environment and to solve multi-turn long-horizon tasks. However, the RL-trained agents often struggle in tasks that require active exploration and fail to efficiently adapt from trial-and-error experiences. In this paper, we present LaMer, a general Meta-RL framework that enables LLM agents to actively explore and learn from the environment feedback at test time. LaMer consists of two key components: (i) a cross-episode training framework to encourage exploration and long-term rewards optimization; and (ii) in-context policy adaptation via reflection, allowing the agent to adapt their policy from task feedback signal without gradient update. Experiments across diverse environments show that LaMer significantly improves performance over RL baselines, with 11%, 14%, and 19% performance gains on Sokoban, MineSweeper and Webshop, respectively. Moreover, LaMer also demonstrates better generalization to more challenging or previously unseen tasks compared to the RL-trained agents. Overall, our results demonstrate that Meta-RL provides a principled approach to induce exploration in language agents, enabling more robust adaptation to novel environments through learned exploration strategies.