RealMem: Het benchmarken van LLM's in realistische, geheugengestuurde interactie
RealMem: Benchmarking LLMs in Real-World Memory-Driven Interaction
January 11, 2026
Auteurs: Haonan Bian, Zhiyuan Yao, Sen Hu, Zishan Xu, Shaolei Zhang, Yifu Guo, Ziliang Yang, Xueran Han, Huacan Wang, Ronghao Chen
cs.AI
Samenvatting
Naarmate grote taalmodelen (LLM's) evolueren van statische dialooginterfaces naar autonome algemene agents, is effectief geheugen van cruciaal belang voor langdurige consistentie. Bestaande benchmarks richten zich echter voornamelijk op informele gesprekken of taakgerichte dialogen, waarbij **"langetermijn projectgerichte"** interacties buiten beschouwing blijven – interacties waarin agents evoluerende doelen moeten bijhouden.
Om deze kloof te overbruggen, introduceren wij **RealMem**, de eerste benchmark die is gebaseerd op realistische projectscenario's. RealMem omvat meer dan 2.000 cross-sessie dialogen verspreid over elf scenario's, waarbij natuurlijke gebruikersquery's worden gebruikt voor evaluatie.
Wij stellen een synthesepijplijn voor die Projectbasisconstructie, Multi-Agent Dialooggeneratie en Geheugen- en Planningbeheer integreert om de dynamische evolutie van geheugen te simuleren. Experimenten tonen aan dat huidige geheugensystemen aanzienlijke uitdagingen ondervinden bij het beheren van langetermijn projectstatussen en dynamische contextafhankelijkheden die inherent zijn aan real-world projecten.
Onze code en datasets zijn beschikbaar op [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).
English
As Large Language Models (LLMs) evolve from static dialogue interfaces to autonomous general agents, effective memory is paramount to ensuring long-term consistency. However, existing benchmarks primarily focus on casual conversation or task-oriented dialogue, failing to capture **"long-term project-oriented"** interactions where agents must track evolving goals.
To bridge this gap, we introduce **RealMem**, the first benchmark grounded in realistic project scenarios. RealMem comprises over 2,000 cross-session dialogues across eleven scenarios, utilizing natural user queries for evaluation.
We propose a synthesis pipeline that integrates Project Foundation Construction, Multi-Agent Dialogue Generation, and Memory and Schedule Management to simulate the dynamic evolution of memory. Experiments reveal that current memory systems face significant challenges in managing the long-term project states and dynamic context dependencies inherent in real-world projects.
Our code and datasets are available at [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).