ChatPaper.aiChatPaper

에이전트 기반 초장기 비디오 이해

Agentic Very Long Video Understanding

January 26, 2026
저자: Aniket Rege, Arka Sadhu, Yuliang Li, Kejie Li, Ramya Korlakai Vinayak, Yuning Chai, Yong Jae Lee, Hyo Jin Kim
cs.AI

초록

스마트 글래스와 같은 종일 wearable 디바이스의 등장으로 구현된 상시 활성화 개인 AI 어시스턴트는 단편적이고 고립된 사건을 넘어 연속적이고 장기적인 에고센트릭 비디오 스트림을 포괄하는 새로운 수준의 상황 이해를 요구합니다. 이러한 비전을 실현하기 위해서는 시스템이 수일 또는 수주에 걸친 시각 및 청각 정보를 해석하고 기억해야 하는 장기간 비디오 이해 기술의 발전이 필요합니다. 대규모 언어 모델 및 검색 증강 생성과 같은 기존 방법론들은 제한된 컨텍스트 윈도우로 인해 매우 긴 비디오 스트림에 대한 구성적, 다중 홉 추론을 수행할 능력이 부족합니다. 본 연구에서는 시간에 따른 사람, 장소, 객체 및 그 관계를 표현하는 엔티티 장면 그래프를 중심으로 한 강화된 에이전트 프레임워크인 EGAgent를 통해 이러한 과제를 해결합니다. 본 시스템은 계획 에이전트에 이러한 그래프에 대한 구조화된 검색 및 추론 도구와 하이브리드 시각/음성 검색 기능을 제공하여 세부적이고 크로스 모달적이며 시간적으로 일관된 추론을 가능하게 합니다. EgoLifeQA 및 Video-MME(Long) 데이터셋에 대한 실험 결과, 본 방법론이 복잡한 장기 비디오 이해 과제에서 EgoLifeQA(57.5%)에 대해 최첨단 성능을, Video-MME(Long)(74.1%)에 대해 경쟁력 있는 성능을 달성함을 확인했습니다.
English
The advent of always-on personal AI assistants, enabled by all-day wearable devices such as smart glasses, demands a new level of contextual understanding, one that goes beyond short, isolated events to encompass the continuous, longitudinal stream of egocentric video. Achieving this vision requires advances in long-horizon video understanding, where systems must interpret and recall visual and audio information spanning days or even weeks. Existing methods, including large language models and retrieval-augmented generation, are constrained by limited context windows and lack the ability to perform compositional, multi-hop reasoning over very long video streams. In this work, we address these challenges through EGAgent, an enhanced agentic framework centered on entity scene graphs, which represent people, places, objects, and their relationships over time. Our system equips a planning agent with tools for structured search and reasoning over these graphs, as well as hybrid visual and audio search capabilities, enabling detailed, cross-modal, and temporally coherent reasoning. Experiments on the EgoLifeQA and Video-MME (Long) datasets show that our method achieves state-of-the-art performance on EgoLifeQA (57.5%) and competitive performance on Video-MME (Long) (74.1%) for complex longitudinal video understanding tasks.
PDF61January 28, 2026