ChatPaper.aiChatPaper

RealMem: 実世界の記憶駆動型インタラクションにおけるLLMベンチマーク

RealMem: Benchmarking LLMs in Real-World Memory-Driven Interaction

January 11, 2026
著者: Haonan Bian, Zhiyuan Yao, Sen Hu, Zishan Xu, Shaolei Zhang, Yifu Guo, Ziliang Yang, Xueran Han, Huacan Wang, Ronghao Chen
cs.AI

要旨

大規模言語モデル(LLMs)が静的な対話インターフェースから自律的な汎用エージェントへと進化するにつれ、長期にわたる一貫性を保証する上で効果的な記憶機能が極めて重要となっている。しかし、既存のベンチマークは主に日常的な会話やタスク指向対話に焦点を当てており、エージェントが変化する目標を追跡しなければならない「**長期プロジェクト指向**」の相互作用を捉えられていない。 このギャップを埋めるため、現実的なプロジェクトシナリオに基づく初のベンチマークである**RealMem**を提案する。RealMemは11のシナリオにわたる2,000を超えるセッション間対話で構成され、自然なユーザークエリを用いて評価を行う。 我々は、プロジェクト基盤構築、マルチエージェント対話生成、記憶及びスケジュール管理を統合し、記憶の動的進化をシミュレートする統合パイプラインを提案する。実験により、現行の記憶システムが、実世界のプロジェクトに内在する長期のプロジェクト状態と動的な文脈依存関係の管理において重大な課題に直面していることが明らかとなった。 コード及びデータセットは[https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench)で公開している。
English
As Large Language Models (LLMs) evolve from static dialogue interfaces to autonomous general agents, effective memory is paramount to ensuring long-term consistency. However, existing benchmarks primarily focus on casual conversation or task-oriented dialogue, failing to capture **"long-term project-oriented"** interactions where agents must track evolving goals. To bridge this gap, we introduce **RealMem**, the first benchmark grounded in realistic project scenarios. RealMem comprises over 2,000 cross-session dialogues across eleven scenarios, utilizing natural user queries for evaluation. We propose a synthesis pipeline that integrates Project Foundation Construction, Multi-Agent Dialogue Generation, and Memory and Schedule Management to simulate the dynamic evolution of memory. Experiments reveal that current memory systems face significant challenges in managing the long-term project states and dynamic context dependencies inherent in real-world projects. Our code and datasets are available at [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).
PDF83January 31, 2026