ChatPaper.aiChatPaper

메타 강화학습이 언어 에이전트의 탐색을 유도한다

Meta-RL Induces Exploration in Language Agents

December 18, 2025
저자: Yulun Jiang, Liangze Jiang, Damien Teney, Michael Moor, Maria Brbic
cs.AI

초록

강화학습(RL)은 대규모 언어 모델(LLM) 에이전트를 환경과 상호작용하며 다중 단계 장기간 작업을 해결하도록 훈련시키는 것을 가능하게 했습니다. 그러나 RL로 훈련된 에이전트는 능동적 탐색이 필요한 작업에서 어려움을 겪으며, 시행착오 경험으로부터 효율적으로 적응하지 못하는 경우가 많습니다. 본 논문에서는 LLM 에이전트가 테스트 시점에 환경 피드백을 통해 능동적으로 탐색하고 학습할 수 있도록 하는 일반적인 메타-RL 프레임워크인 LaMer를 제시합니다. LaMer는 두 가지 핵심 구성 요소로 이루어집니다: (i) 탐색을 장려하고 장기적 보상을 최적화하기 위한 에피소드 간 훈련 프레임워크, (ii) 성찰을 통한 콘텍스트 내 정책 적응으로, 에이전트가 그래디언트 업데이트 없이 작업 피드백 신호로부터 자신의 정책을 적응시킬 수 있게 합니다. 다양한 환경에서의 실험 결과, LaMer는 RL 기준선 대비 성능이 크게 향상되었으며, 소코반, 지뢰 찾기, 웹쇼핑에서 각각 11%, 14%, 19%의 성능 향상을 보였습니다. 또한 LaMer는 RL로 훈련된 에이전트에 비해 더 어렵거나 이전에 접하지 못한 작업으로의 일반화 능력도 우수한 것으로 나타났습니다. 전반적으로, 우리의 결과는 메타-RL이 언어 에이전트에게 탐색을 유도하는 원칙적인 접근법을 제공함으로써, 학습된 탐색 전략을 통해 새로운 환경에 더 강력하게 적응할 수 있게 한다는 것을 입증합니다.
English
Reinforcement learning (RL) has enabled the training of large language model (LLM) agents to interact with the environment and to solve multi-turn long-horizon tasks. However, the RL-trained agents often struggle in tasks that require active exploration and fail to efficiently adapt from trial-and-error experiences. In this paper, we present LaMer, a general Meta-RL framework that enables LLM agents to actively explore and learn from the environment feedback at test time. LaMer consists of two key components: (i) a cross-episode training framework to encourage exploration and long-term rewards optimization; and (ii) in-context policy adaptation via reflection, allowing the agent to adapt their policy from task feedback signal without gradient update. Experiments across diverse environments show that LaMer significantly improves performance over RL baselines, with 11%, 14%, and 19% performance gains on Sokoban, MineSweeper and Webshop, respectively. Moreover, LaMer also demonstrates better generalization to more challenging or previously unseen tasks compared to the RL-trained agents. Overall, our results demonstrate that Meta-RL provides a principled approach to induce exploration in language agents, enabling more robust adaptation to novel environments through learned exploration strategies.
PDF51December 23, 2025