Exploratieve Geheugen-versterkte LLM-agent via Hybride On- en Off-Policy Optimalisatie
Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization
February 26, 2026
Auteurs: Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang
cs.AI
Samenvatting
Exploratie blijft de belangrijkste bottleneck voor agents van grote taalmodellen die getraind zijn met reinforcement learning. Hoewel eerdere methodes gebruikmaken van vooraf getrainde kennis, falen ze in omgevingen die de ontdekking van nieuwe toestanden vereisen. Wij stellen Exploratory Memory-Augmented On- and Off-Policy Optimization (EMPO²) voor, een hybride RL-framework dat geheugen benut voor exploratie en on- en off-policy updates combineert om grote taalmodellen goed te laten presteren mét geheugen, terwijl het ook robuustheid garandeert zónder geheugen. Op ScienceWorld en WebShop behaalt EMPO² respectievelijk 128,6% en 11,3% verbeteringen ten opzichte van GRPO. Bovendien toont EMPO² in out-of-distribution tests een superieure aanpassingsvermogen aan nieuwe taken, waarbij slechts enkele pogingen met geheugen en geen parameterupdates nodig zijn. Deze resultaten benadrukken EMPO² als een veelbelovend framework voor het bouwen van meer explorerende en generaliseerbare op grote taalmodellen gebaseerde agents.
English
Exploration remains the key bottleneck for large language model agents trained with reinforcement learning. While prior methods exploit pretrained knowledge, they fail in environments requiring the discovery of novel states. We propose Exploratory Memory-Augmented On- and Off-Policy Optimization (EMPO^2), a hybrid RL framework that leverages memory for exploration and combines on- and off-policy updates to make LLMs perform well with memory while also ensuring robustness without it. On ScienceWorld and WebShop, EMPO^2 achieves 128.6% and 11.3% improvements over GRPO, respectively. Moreover, in out-of-distribution tests, EMPO^2 demonstrates superior adaptability to new tasks, requiring only a few trials with memory and no parameter updates. These results highlight EMPO^2 as a promising framework for building more exploratory and generalizable LLM-based agents.