M³Eval: Multimodale geheugenevaluatie via cognitief gegronde videotaken

Samenvatting

Naarmate multimodale modellen zich ontwikkelen richting het begrijpen van lange video's, wordt geheugen een cruciale vaardigheid. Ondanks aanzienlijke inspanningen bij het ontwikkelen van videodatasets en benchmarks, richten bestaande werken zich voornamelijk op perceptie en redeneren, zonder systematisch het geheugen te evalueren: wat modellen onthouden, hoe getrouw informatie wordt bewaard en hoe robuust het geheugen blijft onder interferentie. Om deze leemte op te vullen, introduceren we M^3Eval, het eerste uitgebreide evaluatiekader en benchmark voor het onderzoeken van verschillende geheugendimensies in multimodale modellen. Geworteld in de cognitieve psychologie, kenmerkt ons ontwerp zich door zorgvuldig geconstrueerde taken die de belangrijkste aspecten van het geheugen isoleren. Door gebruik te maken van M^3Eval voeren we uitgebreide experimenten uit met representatieve multimodale modellen, wat consistente zwakheden en kenmerkend gedrag aan het licht brengt. We ontdekken dat modellen moeite hebben met het behouden van ontwarde representaties bij het verwerken van parallelle videostreams, interferentiepatronen vertonen die aanzienlijk verschillen van die waargenomen in menselijk geheugen, geheugenbronnen betrouwbaarder verankeren in het ruimtelijke domein dan in het temporele domein, en beperkt symbolisch geheugen tonen. Gezamenlijk biedt onze benchmark een waardevolle hulpbron voor toekomstig onderzoek, terwijl onze bevindingen geheugen benadrukken als een fundamentele maar onderbelichte vaardigheid en inzichten bieden voor het ontwerpen van effectievere geheugenmechanismen in multimodale modellen. Onze code en dataset zijn beschikbaar op https://pku-value-lab.github.io/m3eval-homepage.

English

As multi-modal models advance towards long-form video understanding, memory emerges as a critical capability. Despite substantial efforts in developing video datasets and benchmarks, existing works primarily focus on perception and reasoning, without systematically evaluating memory: what models retain, how faithfully information is preserved, and how robust memory remains under interference. To address this gap, we introduce M^3Eval, the first comprehensive evaluation framework and benchmark for probing different memory dimensions in multi-modal models. Grounded in cognitive psychology, our design features carefully constructed tasks that isolate key aspects of memory. Leveraging M^3Eval, we conduct extensive experiments across representative multi-modal models, revealing consistent weaknesses and distinctive behaviors. We find that models struggle to maintain disentangled representations when processing parallel video streams, exhibit interference patterns differing substantially from those observed in human memory, ground memory sources more reliably in the spatial domain than the temporal domain, and demonstrate limited symbolic memory. Collectively, our benchmark provides a valuable resource for future research, while our findings highlight memory as a fundamental yet underexplored capability and offer insights for designing more effective memory mechanisms in multi-modal models. Our code and dataset are available at https://pku-value-lab.github.io/m3eval-homepage.