ChatPaper.aiChatPaper

Il Meta-RL induce l'esplorazione negli agenti linguistici

Meta-RL Induces Exploration in Language Agents

December 18, 2025
Autori: Yulun Jiang, Liangze Jiang, Damien Teney, Michael Moor, Maria Brbic
cs.AI

Abstract

L'apprendimento per rinforzo (RL) ha permesso di addestrare agenti basati su grandi modelli linguistici (LLM) per interagire con l'ambiente e risolvere compiti multi-turno a lungo termine. Tuttavia, gli agenti addestrati con RL spesso incontrano difficoltà in compiti che richiedono un'esplorazione attiva e non riescono ad adattarsi efficientemente dalle esperienze per tentativi ed errori. In questo articolo, presentiamo LaMer, un framework generale di Meta-RL che consente agli agenti LLM di esplorare attivamente e apprendere dal feedback ambientale durante il test. LaMer è composto da due elementi chiave: (i) un framework di addestramento cross-episodio per incentivare l'esplorazione e l'ottimizzazione delle ricompense a lungo termine; e (ii) un adattamento della politica in-context tramite reflection, che permette all'agente di adattare la propria politica dal segnale di feedback del compito senza aggiornamenti del gradiente. Esperimenti condotti in vari ambienti dimostrano che LaMer migliora significativamente le prestazioni rispetto ai baseline RL, con guadagni prestazionali dell'11%, 14% e 19% rispettivamente su Sokoban, MineSweeper e Webshop. Inoltre, LaMer mostra anche una migliore generalizzazione verso compiti più complessi o non visti in precedenza rispetto agli agenti addestrati con RL. Nel complesso, i nostri risultati dimostrano che il Meta-RL fornisce un approccio principiato per indurre l'esplorazione negli agenti linguistici, consentendo un adattamento più robusto a nuovi ambienti attraverso strategie di esplorazione apprese.
English
Reinforcement learning (RL) has enabled the training of large language model (LLM) agents to interact with the environment and to solve multi-turn long-horizon tasks. However, the RL-trained agents often struggle in tasks that require active exploration and fail to efficiently adapt from trial-and-error experiences. In this paper, we present LaMer, a general Meta-RL framework that enables LLM agents to actively explore and learn from the environment feedback at test time. LaMer consists of two key components: (i) a cross-episode training framework to encourage exploration and long-term rewards optimization; and (ii) in-context policy adaptation via reflection, allowing the agent to adapt their policy from task feedback signal without gradient update. Experiments across diverse environments show that LaMer significantly improves performance over RL baselines, with 11%, 14%, and 19% performance gains on Sokoban, MineSweeper and Webshop, respectively. Moreover, LaMer also demonstrates better generalization to more challenging or previously unseen tasks compared to the RL-trained agents. Overall, our results demonstrate that Meta-RL provides a principled approach to induce exploration in language agents, enabling more robust adaptation to novel environments through learned exploration strategies.
PDF51December 23, 2025