M^3Eval: Avaliação de Memória Multimodal por meio de Tarefas de Vídeo com Fundamentação Cognitiva

Resumo

À medida que os modelos multimodais avançam em direção à compreensão de vídeos longos, a memória emerge como uma capacidade crítica. Apesar de esforços substanciais no desenvolvimento de conjuntos de dados e benchmarks de vídeo, os trabalhos existentes focam principalmente em percepção e raciocínio, sem avaliar sistematicamente a memória: o que os modelos retêm, quão fielmente a informação é preservada e quão robusta a memória permanece sob interferência. Para preencher essa lacuna, introduzimos o M^3Eval, o primeiro framework de avaliação abrangente e benchmark para sondar diferentes dimensões da memória em modelos multimodais. Fundamentado na psicologia cognitiva, nosso design apresenta tarefas cuidadosamente construídas que isolam aspectos-chave da memória. Utilizando o M^3Eval, realizamos experimentos extensivos em modelos multimodais representativos, revelando fraquezas consistentes e comportamentos distintos. Descobrimos que os modelos têm dificuldade em manter representações separadas ao processar fluxos de vídeo paralelos, exibem padrões de interferência substancialmente diferentes dos observados na memória humana, fundamentam fontes de memória de forma mais confiável no domínio espacial do que no temporal e demonstram memória simbólica limitada. Coletivamente, nosso benchmark fornece um recurso valioso para pesquisas futuras, enquanto nossos achados destacam a memória como uma capacidade fundamental, porém subexplorada, e oferecem insights para projetar mecanismos de memória mais eficazes em modelos multimodais. Nosso código e conjunto de dados estão disponíveis em https://pku-value-lab.github.io/m3eval-homepage.

English

As multi-modal models advance towards long-form video understanding, memory emerges as a critical capability. Despite substantial efforts in developing video datasets and benchmarks, existing works primarily focus on perception and reasoning, without systematically evaluating memory: what models retain, how faithfully information is preserved, and how robust memory remains under interference. To address this gap, we introduce M^3Eval, the first comprehensive evaluation framework and benchmark for probing different memory dimensions in multi-modal models. Grounded in cognitive psychology, our design features carefully constructed tasks that isolate key aspects of memory. Leveraging M^3Eval, we conduct extensive experiments across representative multi-modal models, revealing consistent weaknesses and distinctive behaviors. We find that models struggle to maintain disentangled representations when processing parallel video streams, exhibit interference patterns differing substantially from those observed in human memory, ground memory sources more reliably in the spatial domain than the temporal domain, and demonstrate limited symbolic memory. Collectively, our benchmark provides a valuable resource for future research, while our findings highlight memory as a fundamental yet underexplored capability and offer insights for designing more effective memory mechanisms in multi-modal models. Our code and dataset are available at https://pku-value-lab.github.io/m3eval-homepage.