メタ強化学習が言語エージェントに探索を誘発する
Meta-RL Induces Exploration in Language Agents
December 18, 2025
著者: Yulun Jiang, Liangze Jiang, Damien Teney, Michael Moor, Maria Brbic
cs.AI
要旨
強化学習(RL)は大規模言語モデル(LLM)エージェントを環境と対話させ、複数ターンにわたる長期的タスクを解決するように訓練することを可能にしてきた。しかし、RLで訓練されたエージェントは、積極的な探索を必要とするタスクで苦戦し、試行錯誤の経験から効率的に適応することができない場合が多い。本論文では、LLMエージェントがテスト時に環境からのフィードバックを積極的に探索し学習することを可能にする、汎用メタRLフレームワーク「LaMer」を提案する。LaMerは二つの主要コンポーネントから構成される:(i)探索と長期的報酬の最適化を促進するためのエピソード間トレーニングフレームワーク、および(ii)内省的文脈内方策適応。これにより、エージェントは勾配更新なしでタスクのフィードバック信号から自身の方策を適応させることができる。様々な環境での実験により、LaMerがRLベースライン手法を大幅に上回る性能向上をもたらすことが示され、Sokoban、MineSweeper、Webshopにおいてそれぞれ11%、14%、19%の性能向上が確認された。さらにLaMerは、RLで訓練されたエージェントと比較して、より困難なタスクや未経験のタスクへの一般化性能も高めることを実証した。総合的に、我々の結果は、メタRLが言語エージェントに探索を誘導する原理的なアプローチを提供し、学習された探索戦略を通じて新規環境へのよりロバストな適応を可能にすることを示している。
English
Reinforcement learning (RL) has enabled the training of large language model (LLM) agents to interact with the environment and to solve multi-turn long-horizon tasks. However, the RL-trained agents often struggle in tasks that require active exploration and fail to efficiently adapt from trial-and-error experiences. In this paper, we present LaMer, a general Meta-RL framework that enables LLM agents to actively explore and learn from the environment feedback at test time. LaMer consists of two key components: (i) a cross-episode training framework to encourage exploration and long-term rewards optimization; and (ii) in-context policy adaptation via reflection, allowing the agent to adapt their policy from task feedback signal without gradient update. Experiments across diverse environments show that LaMer significantly improves performance over RL baselines, with 11%, 14%, and 19% performance gains on Sokoban, MineSweeper and Webshop, respectively. Moreover, LaMer also demonstrates better generalization to more challenging or previously unseen tasks compared to the RL-trained agents. Overall, our results demonstrate that Meta-RL provides a principled approach to induce exploration in language agents, enabling more robust adaptation to novel environments through learned exploration strategies.