MemEye: 멀티모달 에이전트 메모리를 위한 시각 중심 평가 프레임워크
MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory
May 14, 2026
저자: Minghao Guo, Qingyue Jiao, Zeru Shi, Yihao Quan, Boxuan Zhang, Danrui Li, Liwei Che, Wujiang Xu, Shilong Liu, Zirui Liu, Mubbasir Kapadia, Vladimir Pavlovic, Jiang Liu, Mengdi Wang, Yiyu Shi, Dimitris N. Metaxas, Ruixiang Tang
cs.AI
초록
장기 에이전트 메모리는 점점 더 다중 모달화되고 있지만, 기존 평가에서는 에이전트가 이후 추론에 필요한 시각적 증거를 보존하는지 거의 테스트하지 않는다. 선행 연구에서는 많은 시각 기반 질문이 캡션이나 텍스트 흔적만으로도 답변 가능하여, 세밀한 시각적 증거를 보존하지 않고도 답을 추론할 수 있었다. 한편, 변화하는 시각적 상태에 대한 추론이 필요한 더 어려운 사례는 대부분 부재하다. 따라서 우리는 메모리 능력을 두 가지 차원에서 평가하는 프레임워크인 MemEye를 소개한다. 하나는 결정적 시각적 증거의 세분성(장면 수준에서 픽셀 수준의 증거까지)을 측정하고, 다른 하나는 검색된 증거가 어떻게 사용되어야 하는지(단일 증거에서 진화적 종합까지)를 측정한다. 이 프레임워크 하에 우리는 8가지 생활 시나리오 작업에 걸쳐 새로운 벤치마크를 구축하며, 답변 가능성, 지름길 저항성, 시각적 필수성, 추론 구조를 평가하기 위한 제거 기반 검증 게이트를 포함한다. 4개의 VLM 백본에 걸쳐 13가지 메모리 방법을 평가함으로써, 현재 아키텍처가 세밀한 시각적 세부 사항을 보존하고 시간에 따른 상태 변화를 추론하는 데 여전히 어려움을 겪고 있음을 보여준다. 우리의 발견은 장기 다중 모달 메모리가 증거 라우팅, 시간적 추적, 세부 정보 추출에 의존함을 시사한다.
English
Long-term agent memory is increasingly multimodal, yet existing evaluations rarely test whether agents preserve the visual evidence needed for later reasoning. In prior work, many visually grounded questions can be answered using only captions or textual traces, allowing answers to be inferred without preserving the fine-grained visual evidence. Meanwhile, harder cases that require reasoning over changing visual states are largely absent. Therefore, we introduce MemEye, a framework that evaluates memory capabilities from two dimensions: one measures the granularity of decisive visual evidence (from scene-level to pixel-level evidence), and the other measures how retrieved evidence must be used (from single evidence to evolutionary synthesis). Under this framework, we construct a new benchmark across 8 life-scenario tasks, with ablation-driven validation gates for assessing answerability, shortcut resistance, visual necessity, and reasoning structure. By evaluating 13 memory methods across 4 VLM backbones, we show that current architectures still struggle to preserve fine-grained visual details and reason about state changes over time. Our findings show that long-term multimodal memory depends on evidence routing, temporal tracking, and detail extraction.