RealMem : Évaluation des LLM dans le cadre d'interactions réalistes pilotées par la mémoire
RealMem: Benchmarking LLMs in Real-World Memory-Driven Interaction
January 11, 2026
papers.authors: Haonan Bian, Zhiyuan Yao, Sen Hu, Zishan Xu, Shaolei Zhang, Yifu Guo, Ziliang Yang, Xueran Han, Huacan Wang, Ronghao Chen
cs.AI
papers.abstract
Alors que les modèles de langage évoluent d'interfaces de dialogue statiques vers des agents généraux autonomes, une mémoire efficace est primordiale pour assurer une cohérence à long terme. Cependant, les benchmarks existants se concentrent principalement sur les conversations informelles ou les dialogues orientés tâches, ne parvenant pas à capturer les interactions **« orientées projet à long terme »** où les agents doivent suivre des objectifs évolutifs.
Pour combler cette lacune, nous présentons **RealMem**, le premier benchmark ancré dans des scénarios de projet réalistes. RealMem comprend plus de 2 000 dialogues intersessions couvrant onze scénarios, utilisant des requêtes utilisateur naturelles pour l'évaluation.
Nous proposons un pipeline de synthèse qui intègre la Construction de Fondation de Projet, la Génération de Dialogue Multi-Agent, et la Gestion de Mémoire et de Planification pour simuler l'évolution dynamique de la mémoire. Les expériences révèlent que les systèmes de mémoire actuels rencontrent des défis significatifs dans la gestion des états de projet à long terme et des dépendances contextuelles dynamiques inhérentes aux projets réels.
Notre code et nos jeux de données sont disponibles à l'adresse [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).
English
As Large Language Models (LLMs) evolve from static dialogue interfaces to autonomous general agents, effective memory is paramount to ensuring long-term consistency. However, existing benchmarks primarily focus on casual conversation or task-oriented dialogue, failing to capture **"long-term project-oriented"** interactions where agents must track evolving goals.
To bridge this gap, we introduce **RealMem**, the first benchmark grounded in realistic project scenarios. RealMem comprises over 2,000 cross-session dialogues across eleven scenarios, utilizing natural user queries for evaluation.
We propose a synthesis pipeline that integrates Project Foundation Construction, Multi-Agent Dialogue Generation, and Memory and Schedule Management to simulate the dynamic evolution of memory. Experiments reveal that current memory systems face significant challenges in managing the long-term project states and dynamic context dependencies inherent in real-world projects.
Our code and datasets are available at [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).