ChatPaper.aiChatPaper

Video-BrowseComp: 오픈 웹에서의 에이전트 기반 비디오 연구 벤치마킹

Video-BrowseComp: Benchmarking Agentic Video Research on Open Web

December 28, 2025
저자: Zhengyang Liang, Yan Shu, Xiangrui Liu, Minghao Qin, Kaixin Liang, Paolo Rota, Nicu Sebe, Zheng Liu, Lizi Liao
cs.AI

초록

자율 에이전트의 진화는 정보 탐색을 수동적 검색에서 능동적이고 개방형 웹 연구로 전환하며 재정의하고 있습니다. 그러나 텍스트 및 정적 멀티모달 에이전트가 빠르게 발전하는 동안, 웹에서 가장 역동적인 모달리티인 비디오 처리에는 상당한 격차가 남아 있습니다. 기존 비디오 벤치마크는 주로 수동적 인식에 집중하여 외부 검색 없이도 선별된 클립을 모델에 제공합니다. 이들은 비디오 타임라인을 능동적으로 질의하고, 분산된 증거를 상호 참조하며, 열린 웹에서 주장을 검증해야 하는 에이전트적 비디오 연구를 평가하지 못합니다. 이러한 격차를 해소하기 위해 우리는 개방형 웹 에이전트 비디오 추론에 맞춰진 210개의 어려운 질문으로 구성된 도전적인 벤치마크인 Video-BrowseComp를 제시합니다. 기존 벤치마크와 달리 Video-BrowseComp는 시간적 시각 증거에 대한 필수 의존성을 부과하여 텍스트 검색만으로는 답을 도출할 수 없고 외부 주장을 검증하기 위해 비디오 타임라인을 탐색해야 하도록 합니다. 최첨단 모델 평가 결과 중요한 병목 현상이 드러났습니다: GPT-5.1(검색 기능 포함)과 같은 고급 검색 강화 모델도 정확도가 15.24%에 불과했습니다. 우리 분석에 따르면 이러한 모델은 주로 텍스트 대리 요소에 의존하여 메타데이터가 풍부한 영역(예: 줄거리 요약이 있는 TV 프로그램)에서는 뛰어나지만, 시각적 근거가 필수적인 메타데이터가 부족한 역동적 환경(예: 스포츠, 게임 플레이)에서는 완전히 무너집니다. 최초의 개방형 웹 비디오 연구 벤치마크인 Video-BrowseComp는 수동적 인식을 넘어 능동적 비디오 추론으로 분야를 발전시킵니다.
English
The evolution of autonomous agents is redefining information seeking, transitioning from passive retrieval to proactive, open-ended web research. However, while textual and static multimodal agents have seen rapid progress, a significant modality gap remains in processing the web's most dynamic modality: video. Existing video benchmarks predominantly focus on passive perception, feeding curated clips to models without requiring external retrieval. They fail to evaluate agentic video research, which necessitates actively interrogating video timelines, cross-referencing dispersed evidence, and verifying claims against the open web. To bridge this gap, we present Video-BrowseComp, a challenging benchmark comprising 210 questions tailored for open-web agentic video reasoning. Unlike prior benchmarks, Video-BrowseComp enforces a mandatory dependency on temporal visual evidence, ensuring that answers cannot be derived solely through text search but require navigating video timelines to verify external claims. Our evaluation of state-of-the-art models reveals a critical bottleneck: even advanced search-augmented models like GPT-5.1 (w/ Search) achieve only 15.24\% accuracy. Our analysis reveals that these models largely rely on textual proxies, excelling in metadata-rich domains (e.g., TV shows with plot summaries) but collapsing in metadata-sparse, dynamic environments (e.g., sports, gameplay) where visual grounding is essential. As the first open-web video research benchmark, Video-BrowseComp advances the field beyond passive perception toward proactive video reasoning.
PDF91December 31, 2025