RealMem: Bewertung von LLMs in realen, speichergestützten Interaktionen
RealMem: Benchmarking LLMs in Real-World Memory-Driven Interaction
January 11, 2026
papers.authors: Haonan Bian, Zhiyuan Yao, Sen Hu, Zishan Xu, Shaolei Zhang, Yifu Guo, Ziliang Yang, Xueran Han, Huacan Wang, Ronghao Chen
cs.AI
papers.abstract
Da sich große Sprachmodelle (LLMs) von statischen Dialogoberflächen zu autonomen allgemeinen Agenten entwickeln, ist ein effektives Gedächtnis von entscheidender Bedeutung, um langfristige Konsistenz zu gewährleisten. Allerdings konzentrieren sich bestehende Benchmarks primär auf lockere Konversationen oder aufgabenorientierte Dialoge und erfassen nicht **"langfristige projektorientierte"** Interaktionen, bei denen Agenten sich entwickelnde Ziele verfolgen müssen.
Um diese Lücke zu schließen, stellen wir **RealMem** vor, den ersten Benchmark, der auf realistischen Projektszenarien basiert. RealMem umfasst über 2.000 sitzungsübergreifende Dialoge in elf Szenarien und nutzt natürliche Nutzeranfragen zur Evaluation.
Wir schlagen eine Synthese-Pipeline vor, die Projektgrundlagenerstellung, Multi-Agenten-Dialoggenerierung sowie Gedächtnis- und Terminplanungsmanagement integriert, um die dynamische Entwicklung des Gedächtnisses zu simulieren. Experimente zeigen, dass aktuelle Gedächtnissysteme erhebliche Schwierigkeiten bei der Verwaltung langfristiger Projektzustände und dynamischer Kontextabhängigkeiten haben, die realen Projekten inhärent sind.
Unser Code und unsere Datensätze sind verfügbar unter [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).
English
As Large Language Models (LLMs) evolve from static dialogue interfaces to autonomous general agents, effective memory is paramount to ensuring long-term consistency. However, existing benchmarks primarily focus on casual conversation or task-oriented dialogue, failing to capture **"long-term project-oriented"** interactions where agents must track evolving goals.
To bridge this gap, we introduce **RealMem**, the first benchmark grounded in realistic project scenarios. RealMem comprises over 2,000 cross-session dialogues across eleven scenarios, utilizing natural user queries for evaluation.
We propose a synthesis pipeline that integrates Project Foundation Construction, Multi-Agent Dialogue Generation, and Memory and Schedule Management to simulate the dynamic evolution of memory. Experiments reveal that current memory systems face significant challenges in managing the long-term project states and dynamic context dependencies inherent in real-world projects.
Our code and datasets are available at [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).