Agente de LLM Aumentado por Memória Exploratória via Otimização Híbrida On- e Off-Policy

Resumo

A exploração continua a ser o principal obstáculo para agentes de modelos de linguagem grandes treinados com aprendizagem por reforço. Embora os métodos anteriores explorem conhecimento pré-treinado, eles falham em ambientes que exigem a descoberta de estados novos. Propomos o EMPO² (Optimização de Políticas On- e Off-Policy com Memória Exploratória), uma estrutura híbrida de aprendizagem por reforço que aproveita a memória para exploração e combina atualizações on- e off-policy para fazer com que os LLMs tenham um bom desempenho com memória, garantindo também robustez sem ela. No ScienceWorld e no WebShop, o EMPO² alcança melhorias de 128,6% e 11,3% em relação ao GRPO, respetivamente. Além disso, em testes de dados fora da distribuição, o EMPO² demonstra uma adaptabilidade superior a novas tarefas, exigindo apenas algumas tentativas com memória e sem atualizações de parâmetros. Estes resultados destacam o EMPO² como uma estrutura promissora para a construção de agentes baseados em LLM mais exploratórios e generalizáveis.

English

Exploration remains the key bottleneck for large language model agents trained with reinforcement learning. While prior methods exploit pretrained knowledge, they fail in environments requiring the discovery of novel states. We propose Exploratory Memory-Augmented On- and Off-Policy Optimization (EMPO^2), a hybrid RL framework that leverages memory for exploration and combines on- and off-policy updates to make LLMs perform well with memory while also ensuring robustness without it. On ScienceWorld and WebShop, EMPO^2 achieves 128.6% and 11.3% improvements over GRPO, respectively. Moreover, in out-of-distribution tests, EMPO^2 demonstrates superior adaptability to new tasks, requiring only a few trials with memory and no parameter updates. These results highlight EMPO^2 as a promising framework for building more exploratory and generalizable LLM-based agents.