SuperMemory-VQA: 장기 기억을 위한 에고센트릭 시각 질의응답 벤치마크
SuperMemory-VQA: An Egocentric Visual Question-Answering Benchmark for Long-Horizon Memory
May 30, 2026
저자: Samiul Alam, Shakhrul Iman Siam, Michael J. Proulx, James Fort, Richard Newcombe, Hyo Jin Kim, Mi Zhang
cs.AI
초록
AI 안경은 AI 에이전트가 개인화된 기억 보조자 역할을 수행할 수 있는 매력적인 플랫폼을 제공한다. 진정으로 유용하려면 이러한 시스템은 단기 비디오 이해를 넘어 인간이 실용적, 개인적 또는 사회적 목적으로 장기적인 자기중심적 비디오 스트림에서 경험하는 기억 공백을 해결해야 한다. 그러나 기존의 자기중심적 데이터셋은 주로 단편 클립에서의 행동 인식이나 일반적인 질의응답에 초점을 맞추어, 현실적인 인간의 기억 요구보다는 지각 능력을 측정한다. 우리는 실용적이고 장기적인 기억 작업에서 AI 어시스턴트를 평가하기 위한 자기중심적 시각 질의응답(VQA) 데이터셋인 SuperMemory-VQA를 소개한다. 이 데이터셋은 AI 안경으로 녹화된 52.9시간의 일상 활동을 포함하며, 동기화된 RGB 비디오, 오디오 전사, 시선 추적, IMU 및 SLAM 궤적을 포함한다. 인간 검증 주석 파이프라인을 통해 우리는 객체 및 위치 기억, 의도 회상, 시각적 장면 회상, 타임라인 재구성, 대화 기억 및 맥락 내 검색을 포괄하는 근거 기반의 4,853개의 질문-답변 쌍을 구축했다. 각 질문은 명시적인 '답변 불가' 옵션이 있는 객관식으로 제공되어 환각(hallucination) 견고성을 테스트한다. 주요 에이전틱 프레임워크 및 LLM 백본을 벤치마킹한 결과, 기존 시스템은 실제 기억 작업에서 여전히 신뢰성과 거리가 멀다는 것이 밝혀졌으며, 이는 증거가 충분할 때만 답변할 수 있는 근거 기반 AI 기억을 위한 새로운 아키텍처의 필요성을 강조한다. 참가자 설문조사는 또한 우리의 질문이 현실적이고 유용하며 일상적인 기억 요구와 일치함을 뒷받침한다.
English
AI glasses present a compelling platform for AI agents to serve as personalized memory assistants. To be genuinely useful, such systems must move beyond short-term video comprehension and address memory gaps that humans experience for practical, personal, or social purposes over longitudinal egocentric video streams. However, existing egocentric datasets predominantly focus on action recognition or generic QAs from short clips, measuring perceptual capabilities rather than realistic human memory needs. We introduce SuperMemory-VQA, an egocentric visual question answering (VQA) dataset for evaluating AI assistants on practical, long-horizon memory tasks. It contains 52.9 hours of everyday activities recorded with AI glasses, including synchronized RGB video, audio transcription, eye gaze, IMU, and SLAM trajectories. Through a human-verified annotation pipeline, we construct grounded 4,853 question-answer pairs that span object and location memory, intent recall, visual scene recall, timeline reconstruction, conversational memory, and in-context retrieval. Each question is posed as multiple-choice with an explicit "unanswerable" option to test hallucination robustness. Benchmarking leading agentic frameworks and LLM backbones reveals that existing systems remain far from reliable on real-world memory tasks, highlighting the need for new architectures for grounded AI memory that can answer only when evidence is sufficient. A participant survey further supports that our questions are realistic, useful, and aligned with everyday memory needs.