Compreensão de Vídeos Muito Longos com Agência

Resumo

O surgimento de assistentes pessoais de IA sempre ativos, possibilitados por dispositivos vestíveis de uso contínuo, como óculos inteligentes, exige um novo nível de compreensão contextual, que vá além de eventos isolados e curtos para abranger o fluxo contínuo e longitudinal de vídeo egocêntrico. Realizar essa visão requer avanços na compreensão de vídeo de longo horizonte, onde os sistemas devem interpretar e recordar informações visuais e sonoras abrangendo dias ou mesmo semanas. Os métodos existentes, incluindo grandes modelos de linguagem e geração aumentada por recuperação, são limitados por janelas de contexto restritas e carecem da capacidade de realizar raciocínio composicional e multi-etapas sobre fluxos de vídeo muito longos. Neste trabalho, abordamos esses desafios por meio do EGAgent, uma estrutura agentiva aprimorada centrada em grafos de cena de entidades, que representam pessoas, lugares, objetos e suas relações ao longo do tempo. Nosso sistema equipa um agente de planejamento com ferramentas para busca estruturada e raciocínio sobre esses grafos, bem como capacidades híbridas de busca visual e sonora, permitindo um raciocínio detalhado, cross-modal e temporalmente coerente. Experimentos nos conjuntos de dados EgoLifeQA e Video-MME (Long) mostram que nosso método alcança desempenho de ponta no EgoLifeQA (57,5%) e desempenho competitivo no Video-MME (Long) (74,1%) para tarefas complexas de compreensão de vídeo longitudinal.

English

The advent of always-on personal AI assistants, enabled by all-day wearable devices such as smart glasses, demands a new level of contextual understanding, one that goes beyond short, isolated events to encompass the continuous, longitudinal stream of egocentric video. Achieving this vision requires advances in long-horizon video understanding, where systems must interpret and recall visual and audio information spanning days or even weeks. Existing methods, including large language models and retrieval-augmented generation, are constrained by limited context windows and lack the ability to perform compositional, multi-hop reasoning over very long video streams. In this work, we address these challenges through EGAgent, an enhanced agentic framework centered on entity scene graphs, which represent people, places, objects, and their relationships over time. Our system equips a planning agent with tools for structured search and reasoning over these graphs, as well as hybrid visual and audio search capabilities, enabling detailed, cross-modal, and temporally coherent reasoning. Experiments on the EgoLifeQA and Video-MME (Long) datasets show that our method achieves state-of-the-art performance on EgoLifeQA (57.5%) and competitive performance on Video-MME (Long) (74.1%) for complex longitudinal video understanding tasks.

Compreensão de Vídeos Muito Longos com Agência

Agentic Very Long Video Understanding

Resumo

Support