RealMem: 실제 세계 기억 기반 상호작용에서의 LLM 성능 벤치마킹
RealMem: Benchmarking LLMs in Real-World Memory-Driven Interaction
January 11, 2026
저자: Haonan Bian, Zhiyuan Yao, Sen Hu, Zishan Xu, Shaolei Zhang, Yifu Guo, Ziliang Yang, Xueran Han, Huacan Wang, Ronghao Chen
cs.AI
초록
대규모 언어 모델(LLM)이 정적 대화 인터페이스에서 자율적 일반 에이전트로 진화함에 따라, 효과적인 메모리는 장기적 일관성을 보장하는 데 가장 중요해졌습니다. 그러나 기존 벤치마크는 주로 일상적 대화나 작업 지향 대화에 초점을 맞추어, 에이전트가 변화하는 목표를 추적해야 하는 **"장기 프로젝트 지향"** 상호작용을 제대로 포착하지 못하고 있습니다.
이러한 격차를 해소하기 위해 우리는 현실적인 프로젝트 시나리오에 기반한 최초의 벤치마크인 **RealMem**을 소개합니다. RealMem은 11가지 시나리오에 걸친 2,000개 이상의 교차 세션 대화로 구성되며, 평가를 위해 자연스러운 사용자 쿼리를 활용합니다.
우리는 프로젝트 기반 구축, 다중 에이전트 대화 생성, 메모리 및 일정 관리를 통합하여 메모리의 동적 진화를 시뮬레이션하는 합성 파이프라인을 제안합니다. 실험 결과, 현재의 메모리 시스템은 현실 세계 프로젝트에 내재된 장기 프로젝트 상태와 동적 컨텍스트 의존성을 관리하는 데 상당한 어려움을 겪는 것으로 나타났습니다.
저희 코드와 데이터셋은 [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench)에서 확인하실 수 있습니다.
English
As Large Language Models (LLMs) evolve from static dialogue interfaces to autonomous general agents, effective memory is paramount to ensuring long-term consistency. However, existing benchmarks primarily focus on casual conversation or task-oriented dialogue, failing to capture **"long-term project-oriented"** interactions where agents must track evolving goals.
To bridge this gap, we introduce **RealMem**, the first benchmark grounded in realistic project scenarios. RealMem comprises over 2,000 cross-session dialogues across eleven scenarios, utilizing natural user queries for evaluation.
We propose a synthesis pipeline that integrates Project Foundation Construction, Multi-Agent Dialogue Generation, and Memory and Schedule Management to simulate the dynamic evolution of memory. Experiments reveal that current memory systems face significant challenges in managing the long-term project states and dynamic context dependencies inherent in real-world projects.
Our code and datasets are available at [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).