Agente LLM con Memoria Esplorativa tramite Ottimizzazione Ibrida On-Policy e Off-Policy

Abstract

L'esplorazione rimane il principale collo di bottiglia per gli agenti basati su grandi modelli linguistici addestrati con apprendimento per rinforzo. Sebbene i metodi precedenti sfruttino conoscenze pre-addestrate, falliscono in ambienti che richiedono la scoperta di stati nuovi. Proponiamo EMPO² (Exploratory Memory-Augmented On- and Off-Policy Optimization), un framework ibrido di RL che utilizza la memoria per l'esplorazione e combina aggiornamenti on-policy e off-policy per far sì che i LLM performino bene con la memoria, garantendo al contempo robustezza senza di essa. Su ScienceWorld e WebShop, EMPO² raggiunge miglioramenti rispettivamente del 128,6% e dell'11,3% rispetto a GRPO. Inoltre, in test out-of-distribution, EMPO² dimostra una superiore adattabilità a nuovi compiti, richiedendo solo poche prove con memoria e nessun aggiornamento dei parametri. Questi risultati evidenziano EMPO² come un framework promettente per costruire agenti basati su LLM più esplorativi e generalizzabili.

English

Exploration remains the key bottleneck for large language model agents trained with reinforcement learning. While prior methods exploit pretrained knowledge, they fail in environments requiring the discovery of novel states. We propose Exploratory Memory-Augmented On- and Off-Policy Optimization (EMPO^2), a hybrid RL framework that leverages memory for exploration and combines on- and off-policy updates to make LLMs perform well with memory while also ensuring robustness without it. On ScienceWorld and WebShop, EMPO^2 achieves 128.6% and 11.3% improvements over GRPO, respectively. Moreover, in out-of-distribution tests, EMPO^2 demonstrates superior adaptability to new tasks, requiring only a few trials with memory and no parameter updates. These results highlight EMPO^2 as a promising framework for building more exploratory and generalizable LLM-based agents.

Agente LLM con Memoria Esplorativa tramite Ottimizzazione Ibrida On-Policy e Off-Policy

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Abstract

Support