Valutazione della Memoria negli Agenti LLM tramite Interazioni Multi-Turn Incrementali
Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions
July 7, 2025
Autori: Yuanzhe Hu, Yu Wang, Julian McAuley
cs.AI
Abstract
I recenti benchmark per gli agenti di Large Language Model (LLM) si concentrano principalmente sulla valutazione delle capacità di ragionamento, pianificazione ed esecuzione, mentre un altro componente critico - la memoria, che comprende come gli agenti memorizzano, aggiornano e recuperano informazioni a lungo termine - è sottovalutato a causa della mancanza di benchmark. Definiamo gli agenti con meccanismi di memoria come agenti di memoria. In questo articolo, identifichiamo quattro competenze fondamentali essenziali per gli agenti di memoria: recupero accurato, apprendimento al momento del test, comprensione a lungo raggio e risoluzione dei conflitti. I dataset esistenti si basano su lunghezze di contesto limitate o sono progettati per contesti statici e lunghi come il QA basato su libri, che non riflettono la natura interattiva e multi-turn degli agenti di memoria che accumulano informazioni in modo incrementale. Inoltre, nessun benchmark esistente copre tutte e quattro le competenze. Pertanto, introduciamo MemoryAgentBench, un nuovo benchmark specificamente progettato per gli agenti di memoria. Il nostro benchmark combina dataset esistenti riformulati con nuovi dataset costruiti appositamente, coprendo le quattro competenze di memoria sopra menzionate, fornendo un banco di prova sistematico e impegnativo per valutare la qualità della memoria. Valutiamo una gamma diversificata di agenti di memoria, che vanno da semplici sistemi basati su contesto e generazione aumentata dal recupero (RAG) ad agenti avanzati con moduli di memoria esterni e integrazione di strumenti. I risultati empirici rivelano che i metodi attuali non riescono a padroneggiare tutte e quattro le competenze, sottolineando la necessità di ulteriori ricerche su meccanismi di memoria completi per gli agenti LLM.
English
Recent benchmarks for Large Language Model (LLM) agents primarily focus on
evaluating reasoning, planning, and execution capabilities, while another
critical component-memory, encompassing how agents memorize, update, and
retrieve long-term information-is under-evaluated due to the lack of
benchmarks. We term agents with memory mechanisms as memory agents. In this
paper, we identify four core competencies essential for memory agents: accurate
retrieval, test-time learning, long-range understanding, and conflict
resolution. Existing datasets either rely on limited context lengths or are
tailored for static, long-context settings like book-based QA, which do not
reflect the interactive, multi-turn nature of memory agents that incrementally
accumulate information. Furthermore, no existing benchmarks cover all four
competencies. Therefore, we introduce MemoryAgentBench, a new benchmark
specifically designed for memory agents. Our benchmark combines reformulated
existing datasets with newly constructed ones, covering the above four memory
competencies, providing a systematic and challenging testbed for assessing
memory quality. We evaluate a diverse set of memory agents, ranging from simple
context-based and retrieval-augmented generation (RAG) systems to advanced
agents with external memory modules and tool integration. Empirical results
reveal that current methods fall short of mastering all four competencies,
underscoring the need for further research into comprehensive memory mechanisms
for LLM agents.