RealMem: Valutazione delle capacità mnemoniche degli LLM nelle interazioni reali guidate dalla memoria
RealMem: Benchmarking LLMs in Real-World Memory-Driven Interaction
January 11, 2026
Autori: Haonan Bian, Zhiyuan Yao, Sen Hu, Zishan Xu, Shaolei Zhang, Yifu Guo, Ziliang Yang, Xueran Han, Huacan Wang, Ronghao Chen
cs.AI
Abstract
Man mano che i Large Language Model (LLM) evolvono da interfacce di dialogo statiche ad agenti generali autonomi, una memoria efficace è di fondamentale importanza per garantire una coerenza a lungo termine. Tuttavia, i benchmark esistenti si concentrano principalmente su conversazioni informali o dialoghi orientati al compito, non riuscendo a catturare le interazioni **"orientate a progetti a lungo termine"** in cui gli agenti devono monitorare obiettivi in evoluzione.
Per colmare questa lacuna, introduciamo **RealMem**, il primo benchmark basato su scenari progettuali realistici. RealMem comprende oltre 2.000 dialoghi cross-sessione in undici scenari, utilizzando query utente naturali per la valutazione.
Proponiamo una pipeline di sintesi che integra la Costruzione della Base del Progetto, la Generazione di Dialogo Multi-Agente e la Gestione della Memoria e della Pianificazione per simulare l'evoluzione dinamica della memoria. Gli esperimenti rivelano che gli attuali sistemi di memoria affrontano sfide significative nella gestione degli stati progettuali a lungo termine e delle dipendenze contestuali dinamiche intrinseche ai progetti del mondo reale.
Il nostro codice e i dataset sono disponibili all'indirizzo [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).
English
As Large Language Models (LLMs) evolve from static dialogue interfaces to autonomous general agents, effective memory is paramount to ensuring long-term consistency. However, existing benchmarks primarily focus on casual conversation or task-oriented dialogue, failing to capture **"long-term project-oriented"** interactions where agents must track evolving goals.
To bridge this gap, we introduce **RealMem**, the first benchmark grounded in realistic project scenarios. RealMem comprises over 2,000 cross-session dialogues across eleven scenarios, utilizing natural user queries for evaluation.
We propose a synthesis pipeline that integrates Project Foundation Construction, Multi-Agent Dialogue Generation, and Memory and Schedule Management to simulate the dynamic evolution of memory. Experiments reveal that current memory systems face significant challenges in managing the long-term project states and dynamic context dependencies inherent in real-world projects.
Our code and datasets are available at [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).