ChatPaper.aiChatPaper

RealMem: Evaluación de Modelos de Lenguaje Grandes en Interacciones del Mundo Real Basadas en Memoria

RealMem: Benchmarking LLMs in Real-World Memory-Driven Interaction

January 11, 2026
Autores: Haonan Bian, Zhiyuan Yao, Sen Hu, Zishan Xu, Shaolei Zhang, Yifu Guo, Ziliang Yang, Xueran Han, Huacan Wang, Ronghao Chen
cs.AI

Resumen

A medida que los Modelos de Lenguaje a Gran Escala (LLMs) evolucionan de interfaces de diálogo estáticas a agentes generales autónomos, una memoria efectiva es primordial para garantizar la coherencia a largo plazo. Sin embargo, los puntos de referencia existentes se centran principalmente en conversaciones casuales o diálogos orientados a tareas, sin capturar las interacciones **"orientadas a proyectos a largo plazo"** donde los agentes deben rastrear objetivos en evolución. Para cerrar esta brecha, presentamos **RealMem**, el primer punto de referencia basado en escenarios de proyectos realistas. RealMem comprende más de 2.000 diálogos intersesionales en once escenarios, utilizando consultas de usuarios naturales para la evaluación. Proponemos un pipeline de síntesis que integra la Construcción de la Base del Proyecto, la Generación de Diálogo Multi-Agente y la Gestión de Memoria y Cronogramas para simular la evolución dinámica de la memoria. Los experimentos revelan que los sistemas de memoria actuales enfrentan desafíos significativos para gestionar los estados de proyectos a largo plazo y las dependencias de contexto dinámicas inherentes a los proyectos del mundo real. Nuestro código y conjuntos de datos están disponibles en [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).
English
As Large Language Models (LLMs) evolve from static dialogue interfaces to autonomous general agents, effective memory is paramount to ensuring long-term consistency. However, existing benchmarks primarily focus on casual conversation or task-oriented dialogue, failing to capture **"long-term project-oriented"** interactions where agents must track evolving goals. To bridge this gap, we introduce **RealMem**, the first benchmark grounded in realistic project scenarios. RealMem comprises over 2,000 cross-session dialogues across eleven scenarios, utilizing natural user queries for evaluation. We propose a synthesis pipeline that integrates Project Foundation Construction, Multi-Agent Dialogue Generation, and Memory and Schedule Management to simulate the dynamic evolution of memory. Experiments reveal that current memory systems face significant challenges in managing the long-term project states and dynamic context dependencies inherent in real-world projects. Our code and datasets are available at [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).
PDF83January 31, 2026