Мета-обучение с подкреплением стимулирует исследовательское поведение в языковых агентах
Meta-RL Induces Exploration in Language Agents
December 18, 2025
Авторы: Yulun Jiang, Liangze Jiang, Damien Teney, Michael Moor, Maria Brbic
cs.AI
Аннотация
Обучение с подкреплением (RL) позволило обучать агентов на основе больших языковых моделей (LLM) для взаимодействия со средой и решения многошаговых задач с длительным горизонтом планирования. Однако агенты, обученные с помощью RL, часто испытывают трудности в задачах, требующих активного исследования, и не могут эффективно адаптироваться на основе проб и ошибок. В данной статье мы представляем LaMer — общую мета-RL структуру, которая позволяет агентам на основе LLM активно исследовать среду и обучаться на основе её обратной связи во время тестирования. LaMer состоит из двух ключевых компонентов: (i) межэпизодной системы обучения для стимулирования исследования и оптимизации долгосрочных вознаграждений; и (ii) адаптации политики в контексте посредством рефлексии, позволяющей агенту адаптировать свою политику на основе сигнала обратной связи от задачи без градиентного обновления. Эксперименты в различных средах показывают, что LaMer значительно улучшает производительность по сравнению с RL-базисами, демонстрируя прирост производительности на 11%, 14% и 19% в Sokoban, MineSweeper и Webshop соответственно. Более того, LaMer также демонстрирует лучшую обобщающую способность для более сложных или ранее не встречавшихся задач по сравнению с агентами, обученными с помощью RL. В целом наши результаты показывают, что мета-RL предоставляет принципиальный подход для стимулирования исследования у языковых агентов, обеспечивая более robustную адаптацию к новым средам за счёт изученных стратегий исследования.
English
Reinforcement learning (RL) has enabled the training of large language model (LLM) agents to interact with the environment and to solve multi-turn long-horizon tasks. However, the RL-trained agents often struggle in tasks that require active exploration and fail to efficiently adapt from trial-and-error experiences. In this paper, we present LaMer, a general Meta-RL framework that enables LLM agents to actively explore and learn from the environment feedback at test time. LaMer consists of two key components: (i) a cross-episode training framework to encourage exploration and long-term rewards optimization; and (ii) in-context policy adaptation via reflection, allowing the agent to adapt their policy from task feedback signal without gradient update. Experiments across diverse environments show that LaMer significantly improves performance over RL baselines, with 11%, 14%, and 19% performance gains on Sokoban, MineSweeper and Webshop, respectively. Moreover, LaMer also demonstrates better generalization to more challenging or previously unseen tasks compared to the RL-trained agents. Overall, our results demonstrate that Meta-RL provides a principled approach to induce exploration in language agents, enabling more robust adaptation to novel environments through learned exploration strategies.