SuperMemory-VQA: Um Benchmark Egocêntrico de Perguntas e Respostas Visuais para Memória de Longo Horizonte

Resumo

Os óculos de IA representam uma plataforma promissora para agentes de IA atuarem como assistentes de memória personalizados. Para serem verdadeiramente úteis, tais sistemas devem ir além da compreensão de vídeo de curto prazo e abordar lacunas de memória que os seres humanos experienciam para fins práticos, pessoais ou sociais ao longo de fluxos de vídeo egocêntricos longitudinais. No entanto, os conjuntos de dados egocêntricos existentes concentram-se predominantemente no reconhecimento de ações ou em perguntas e respostas genéricas a partir de clipes curtos, medindo capacidades perceptivas em vez de necessidades realistas de memória humana. Apresentamos o SuperMemory-VQA, um conjunto de dados de perguntas e respostas visuais (VQA) egocêntrico para avaliar assistentes de IA em tarefas de memória práticas e de longo horizonte. Ele contém 52,9 horas de atividades cotidianas gravadas com óculos de IA, incluindo vídeo RGB sincronizado, transcrição de áudio, olhar ocular, IMU e trajetórias SLAM. Através de um pipeline de anotação verificado por humanos, construímos 4.853 pares de perguntas e respostas fundamentadas que abrangem memória de objetos e locais, recordação de intenções, recordação de cenas visuais, reconstrução de linhas do tempo, memória conversacional e recuperação em contexto. Cada pergunta é formulada como múltipla escolha com uma opção explícita "não respondível" para testar a robustez contra alucinações. A avaliação comparativa de frameworks agentivos líderes e backbones de LLM revela que os sistemas existentes ainda estão longe de serem confiáveis em tarefas de memória do mundo real, destacando a necessidade de novas arquiteturas para memória de IA fundamentada que possam responder apenas quando houver evidências suficientes. Uma pesquisa com participantes corrobora ainda que nossas perguntas são realistas, úteis e alinhadas com as necessidades cotidianas de memória.

English

AI glasses present a compelling platform for AI agents to serve as personalized memory assistants. To be genuinely useful, such systems must move beyond short-term video comprehension and address memory gaps that humans experience for practical, personal, or social purposes over longitudinal egocentric video streams. However, existing egocentric datasets predominantly focus on action recognition or generic QAs from short clips, measuring perceptual capabilities rather than realistic human memory needs. We introduce SuperMemory-VQA, an egocentric visual question answering (VQA) dataset for evaluating AI assistants on practical, long-horizon memory tasks. It contains 52.9 hours of everyday activities recorded with AI glasses, including synchronized RGB video, audio transcription, eye gaze, IMU, and SLAM trajectories. Through a human-verified annotation pipeline, we construct grounded 4,853 question-answer pairs that span object and location memory, intent recall, visual scene recall, timeline reconstruction, conversational memory, and in-context retrieval. Each question is posed as multiple-choice with an explicit "unanswerable" option to test hallucination robustness. Benchmarking leading agentic frameworks and LLM backbones reveals that existing systems remain far from reliable on real-world memory tasks, highlighting the need for new architectures for grounded AI memory that can answer only when evidence is sufficient. A participant survey further supports that our questions are realistic, useful, and aligned with everyday memory needs.