Agentisch Begrip van Zeer Lange Video's

Samenvatting

De opkomst van altijd-actieve persoonlijke AI-assistenten, mogelijk gemaakt door draagbare apparaten voor dagelijks gebruik zoals slimme brillen, vereist een nieuw niveau van contextueel begrip. Dit begrip moet verder gaan dan korte, geïsoleerde gebeurtenissen en de continue, longitudinale stroom van egocentrische video omvatten. Het realiseren van deze visie vereist vooruitgang in langetermijnvideobegrip, waarbij systemen visuele en auditieve informatie over dagen of zelfs weken moeten interpreteren en onthouden. Bestaande methoden, waaronder grote taalmodel(len) en retrieval-augmented generation, worden beperkt door een beperkte contextvenstergrootte en missen het vermogen om compositionele, multi-hop redenering uit te voeren over zeer lange videostreams. In dit werk pakken we deze uitdagingen aan met EGAgent, een enhanced agentic framework gecentreerd rond entity scene graphs. Deze grafieken representeren mensen, locaties, objecten en hun onderlinge relaties over tijd. Ons systeem rust een planning agent uit met tools voor gestructureerd zoeken en redeneren over deze grafieken, evenals hybride visuele en auditieve zoekcapaciteiten, waardoor gedetailleerde, cross-modale en temporeel coherente redenering mogelijk wordt. Experimenten op de EgoLifeQA- en Video-MME (Long)-datasets tonen aan dat onze methode state-of-the-art prestaties bereikt op EgoLifeQA (57,5%) en competitieve prestaties op Video-MME (Long) (74,1%) voor complexe longitudinale videobegriptaken.

English

The advent of always-on personal AI assistants, enabled by all-day wearable devices such as smart glasses, demands a new level of contextual understanding, one that goes beyond short, isolated events to encompass the continuous, longitudinal stream of egocentric video. Achieving this vision requires advances in long-horizon video understanding, where systems must interpret and recall visual and audio information spanning days or even weeks. Existing methods, including large language models and retrieval-augmented generation, are constrained by limited context windows and lack the ability to perform compositional, multi-hop reasoning over very long video streams. In this work, we address these challenges through EGAgent, an enhanced agentic framework centered on entity scene graphs, which represent people, places, objects, and their relationships over time. Our system equips a planning agent with tools for structured search and reasoning over these graphs, as well as hybrid visual and audio search capabilities, enabling detailed, cross-modal, and temporally coherent reasoning. Experiments on the EgoLifeQA and Video-MME (Long) datasets show that our method achieves state-of-the-art performance on EgoLifeQA (57.5%) and competitive performance on Video-MME (Long) (74.1%) for complex longitudinal video understanding tasks.

Agentisch Begrip van Zeer Lange Video's

Agentic Very Long Video Understanding

Samenvatting

Support