ChatPaper.aiChatPaper

Meta-RL induceert exploratie in taalagenten

Meta-RL Induces Exploration in Language Agents

December 18, 2025
Auteurs: Yulun Jiang, Liangze Jiang, Damien Teney, Michael Moor, Maria Brbic
cs.AI

Samenvatting

Versterkend leren (RL) heeft het mogelijk gemaakt om grootschalige taalmodel (LLM) agents te trainen om te interageren met de omgeving en meerstaps langetermijntaken op te lossen. RL-getrainde agents hebben echter vaak moeite met taken die actieve exploratie vereisen en slagen er niet in om efficiënt te leren uit trial-and-error-ervaringen. In dit artikel presenteren we LaMer, een algemeen Meta-RL raamwerk dat LLM-agents in staat stelt om actief te exploreren en te leren uit omgevingsfeedback tijdens de testfase. LaMer bestaat uit twee kernelementen: (i) een cross-episode trainingsraamwerk om exploratie en optimalisatie van langetermijnbeloningen te stimuleren; en (ii) in-context beleidsaanpassing via reflectie, waardoor de agent zijn beleid kan aanpassen op basis van taakfeedback zonder gradient-updates. Experimenten in diverse omgevingen tonen aan dat LaMer de prestaties aanzienlijk verbetert ten opzichte van RL-baselines, met prestatieverbeteringen van respectievelijk 11%, 14% en 19% op Sokoban, MineSweeper en Webshop. Bovendien toont LaMer ook een betere generalisatie naar uitdagendere of voorheen ongeziene taken in vergelijking met RL-getrainde agents. Over het geheel genomen tonen onze resultaten aan dat Meta-RL een principiële aanpak biedt om exploratie in taalagents te induceren, waardoor robuustere aanpassing aan nieuwe omgevingen mogelijk wordt door aangeleerde exploratiestrategieën.
English
Reinforcement learning (RL) has enabled the training of large language model (LLM) agents to interact with the environment and to solve multi-turn long-horizon tasks. However, the RL-trained agents often struggle in tasks that require active exploration and fail to efficiently adapt from trial-and-error experiences. In this paper, we present LaMer, a general Meta-RL framework that enables LLM agents to actively explore and learn from the environment feedback at test time. LaMer consists of two key components: (i) a cross-episode training framework to encourage exploration and long-term rewards optimization; and (ii) in-context policy adaptation via reflection, allowing the agent to adapt their policy from task feedback signal without gradient update. Experiments across diverse environments show that LaMer significantly improves performance over RL baselines, with 11%, 14%, and 19% performance gains on Sokoban, MineSweeper and Webshop, respectively. Moreover, LaMer also demonstrates better generalization to more challenging or previously unseen tasks compared to the RL-trained agents. Overall, our results demonstrate that Meta-RL provides a principled approach to induce exploration in language agents, enabling more robust adaptation to novel environments through learned exploration strategies.
PDF51December 23, 2025