RealMem: Avaliação de LLMs em Interação Realista Orientada por Memória

Resumo

À medida que os Modelos de Linguagem de Grande Escala (LLMs) evoluem de interfaces de diálogo estáticas para agentes gerais autónomos, uma memória eficaz é fundamental para garantir a consistência de longo prazo. No entanto, os benchmarks existentes focam-se principalmente em conversas casuais ou diálogos orientados por tarefas, não conseguindo capturar interações **"orientadas por projetos de longo prazo"**, nas quais os agentes devem acompanhar objetivos em evolução. Para colmatar esta lacuna, introduzimos o **RealMem**, o primeiro benchmark baseado em cenários realistas de projeto. O RealMem compreende mais de 2.000 diálogos trans-sessão em onze cenários, utilizando consultas de utilizadores naturais para avaliação. Propomos um pipeline de síntese que integra a Construção da Base do Projeto, a Geração de Diálogo Multi-Agente e a Gestão de Memória e Agenda para simular a evolução dinâmica da memória. Experiências revelam que os sistemas de memória atuais enfrentam desafios significativos na gestão dos estados de projeto de longo prazo e das dependências contextuais dinâmicas inerentes a projetos do mundo real. O nosso código e conjuntos de dados estão disponíveis em [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).

English

As Large Language Models (LLMs) evolve from static dialogue interfaces to autonomous general agents, effective memory is paramount to ensuring long-term consistency. However, existing benchmarks primarily focus on casual conversation or task-oriented dialogue, failing to capture **"long-term project-oriented"** interactions where agents must track evolving goals. To bridge this gap, we introduce **RealMem**, the first benchmark grounded in realistic project scenarios. RealMem comprises over 2,000 cross-session dialogues across eleven scenarios, utilizing natural user queries for evaluation. We propose a synthesis pipeline that integrates Project Foundation Construction, Multi-Agent Dialogue Generation, and Memory and Schedule Management to simulate the dynamic evolution of memory. Experiments reveal that current memory systems face significant challenges in managing the long-term project states and dynamic context dependencies inherent in real-world projects. Our code and datasets are available at [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).