ChatPaper.aiChatPaper

RealMem: Оценка больших языковых моделей в условиях реального взаимодействия, управляемого памятью

RealMem: Benchmarking LLMs in Real-World Memory-Driven Interaction

January 11, 2026
Авторы: Haonan Bian, Zhiyuan Yao, Sen Hu, Zishan Xu, Shaolei Zhang, Yifu Guo, Ziliang Yang, Xueran Han, Huacan Wang, Ronghao Chen
cs.AI

Аннотация

По мере того как большие языковые модели (LLM) эволюционируют от статических диалоговых интерфейсов к автономным агентам общего назначения, эффективная организация памяти становится крайне важной для обеспечения долгосрочной согласованности. Однако существующие бенчмарки в основном сосредоточены на повседневных беседах или целевых диалогах, не охватывая **«долгосрочные проектно-ориентированные»** взаимодействия, в которых агенты должны отслеживать эволюционирующие цели. Чтобы заполнить этот пробел, мы представляем **RealMem** — первый бенчмарк, основанный на реалистичных проектных сценариях. RealMem включает более 2000 кросс-сессионных диалогов в одиннадцати сценариях, использующих естественные пользовательские запросы для оценки. Мы предлагаем pipeline синтеза данных, который интегрирует Построение основы проекта, Генерацию диалогов с участием множества агентов, а также Управление памятью и расписанием для моделирования динамической эволюции памяти. Эксперименты показывают, что современные системы памяти сталкиваются со значительными трудностями при управлении долгосрочными состояниями проекта и динамическими контекстными зависимостями, присущими реальным проектам. Наш код и наборы данных доступны по адресу: [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).
English
As Large Language Models (LLMs) evolve from static dialogue interfaces to autonomous general agents, effective memory is paramount to ensuring long-term consistency. However, existing benchmarks primarily focus on casual conversation or task-oriented dialogue, failing to capture **"long-term project-oriented"** interactions where agents must track evolving goals. To bridge this gap, we introduce **RealMem**, the first benchmark grounded in realistic project scenarios. RealMem comprises over 2,000 cross-session dialogues across eleven scenarios, utilizing natural user queries for evaluation. We propose a synthesis pipeline that integrates Project Foundation Construction, Multi-Agent Dialogue Generation, and Memory and Schedule Management to simulate the dynamic evolution of memory. Experiments reveal that current memory systems face significant challenges in managing the long-term project states and dynamic context dependencies inherent in real-world projects. Our code and datasets are available at [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).
PDF83January 31, 2026