Video-BrowseComp: Бенчмаркинг агентных видеоисследований в открытой веб-среде
Video-BrowseComp: Benchmarking Agentic Video Research on Open Web
December 28, 2025
Авторы: Zhengyang Liang, Yan Shu, Xiangrui Liu, Minghao Qin, Kaixin Liang, Paolo Rota, Nicu Sebe, Zheng Liu, Lizi Liao
cs.AI
Аннотация
Эволюция автономных агентов переопределяет процесс поиска информации, осуществляя переход от пассивного извлечения к проактивному веб-исследованию открытого типа. Однако, хотя текстовые и статические мультимодальные агенты демонстрируют быстрый прогресс, сохраняется значительный разрыв в обработке наиболее динамичной модальности веба — видео. Существующие видео-бенчмарки в основном сосредоточены на пассивном восприятии, предоставляя моделям отобранные фрагменты без необходимости внешнего поиска. Они не оценивают агентское видео-исследование, которое требует активного анализа временных линий видео, перекрестной проверки разрозненных данных и верификации утверждений в условиях открытого веба. Чтобы заполнить этот пробел, мы представляем Video-BrowseComp — сложный бенчмарк, содержащий 210 вопросов, разработанных для агентского видеомышления в открытом вебе. В отличие от предыдущих бенчмарков, Video-BrowseComp предусматривает обязательную зависимость от временных визуальных данных, гарантируя, что ответы не могут быть получены исключительно через текстовый поиск, а требуют навигации по временным линиям видео для проверки внешних утверждений. Наша оценка современных моделей выявляет ключевое узкое место: даже продвинутые модели с расширенным поиском, такие как GPT-5.1 (с поиском), достигают точности лишь 15,24%. Наш анализ показывает, что эти модели в значительной степени полагаются на текстовые прокси, преуспевая в доменах с богатыми метаданными (например, телешоу с описанием сюжета), но терпят неудачу в средах с бедными метаданными и высокой динамикой (например, спорт, геймплей), где essential визуальное заземление. Как первый бенчмарк для видео-исследований в открытом вебе, Video-BrowseComp продвигает область от пассивного восприятия к проактивному видеомышлению.
English
The evolution of autonomous agents is redefining information seeking, transitioning from passive retrieval to proactive, open-ended web research. However, while textual and static multimodal agents have seen rapid progress, a significant modality gap remains in processing the web's most dynamic modality: video. Existing video benchmarks predominantly focus on passive perception, feeding curated clips to models without requiring external retrieval. They fail to evaluate agentic video research, which necessitates actively interrogating video timelines, cross-referencing dispersed evidence, and verifying claims against the open web. To bridge this gap, we present Video-BrowseComp, a challenging benchmark comprising 210 questions tailored for open-web agentic video reasoning. Unlike prior benchmarks, Video-BrowseComp enforces a mandatory dependency on temporal visual evidence, ensuring that answers cannot be derived solely through text search but require navigating video timelines to verify external claims. Our evaluation of state-of-the-art models reveals a critical bottleneck: even advanced search-augmented models like GPT-5.1 (w/ Search) achieve only 15.24\% accuracy. Our analysis reveals that these models largely rely on textual proxies, excelling in metadata-rich domains (e.g., TV shows with plot summaries) but collapsing in metadata-sparse, dynamic environments (e.g., sports, gameplay) where visual grounding is essential. As the first open-web video research benchmark, Video-BrowseComp advances the field beyond passive perception toward proactive video reasoning.