Meta-RL Induz Exploração em Agentes de Linguagem

Resumo

O aprendizado por reforço (RL) permitiu o treinamento de agentes baseados em grandes modelos de linguagem (LLMs) para interagir com o ambiente e resolver tarefas complexas e de longo prazo com múltiplos turnos. No entanto, os agentes treinados com RL frequentemente apresentam dificuldades em tarefas que exigem exploração ativa e falham em se adaptar eficientemente a partir de experiências de tentativa e erro. Neste artigo, apresentamos o LaMer, uma estrutura geral de Meta-RL que permite aos agentes de LLM explorar ativamente e aprender com o feedback do ambiente durante o teste. O LaMer consiste em dois componentes principais: (i) uma estrutura de treinamento cross-episódica para incentivar a exploração e a otimização de recompensas de longo prazo; e (ii) uma adaptação de política *in-context* por meio de reflexão, permitindo que o agente adapte sua política a partir do sinal de feedback da tarefa sem atualização por gradiente. Experimentos em diversos ambientes mostram que o LaMelhor melhora significativamente o desempenho em relação às linhas de base de RL, com ganhos de desempenho de 11%, 14% e 19% em Sokoban, Campo Minado e Webshop, respectivamente. Além disso, o LaMer também demonstra melhor generalização para tarefas mais desafiadoras ou previamente não vistas em comparação com os agentes treinados com RL. No geral, nossos resultados demonstram que o Meta-RL fornece uma abordagem fundamentada para induzir a exploração em agentes de linguagem, permitindo uma adaptação mais robusta a novos ambientes por meio de estratégias de exploração aprendidas.

English

Reinforcement learning (RL) has enabled the training of large language model (LLM) agents to interact with the environment and to solve multi-turn long-horizon tasks. However, the RL-trained agents often struggle in tasks that require active exploration and fail to efficiently adapt from trial-and-error experiences. In this paper, we present LaMer, a general Meta-RL framework that enables LLM agents to actively explore and learn from the environment feedback at test time. LaMer consists of two key components: (i) a cross-episode training framework to encourage exploration and long-term rewards optimization; and (ii) in-context policy adaptation via reflection, allowing the agent to adapt their policy from task feedback signal without gradient update. Experiments across diverse environments show that LaMer significantly improves performance over RL baselines, with 11%, 14%, and 19% performance gains on Sokoban, MineSweeper and Webshop, respectively. Moreover, LaMer also demonstrates better generalization to more challenging or previously unseen tasks compared to the RL-trained agents. Overall, our results demonstrate that Meta-RL provides a principled approach to induce exploration in language agents, enabling more robust adaptation to novel environments through learned exploration strategies.

Meta-RL Induz Exploração em Agentes de Linguagem

Meta-RL Induces Exploration in Language Agents

Resumo

Support