Video-BrowseComp: Evaluación de la Investigación de Video Agéntico en la Web Abierta
Video-BrowseComp: Benchmarking Agentic Video Research on Open Web
December 28, 2025
Autores: Zhengyang Liang, Yan Shu, Xiangrui Liu, Minghao Qin, Kaixin Liang, Paolo Rota, Nicu Sebe, Zheng Liu, Lizi Liao
cs.AI
Resumen
La evolución de agentes autónomos está redefiniendo la búsqueda de información, transitando desde la recuperación pasiva hacia la investigación web proactiva y de final abierto. Sin embargo, mientras que los agentes textuales y multimodales estáticos han experimentado un rápido progreso, persiste una brecha modal significativa en el procesamiento de la modalidad más dinámica de la web: el video. Los puntos de referencia existentes para video se centran predominantemente en la percepción pasiva, alimentando a los modelos con clips seleccionados sin requerir recuperación externa. Estos no logran evaluar la investigación agentiva de video, que requiere interrogar activamente las líneas de tiempo de los videos, realizar referencias cruzadas de evidencia dispersa y verificar afirmaciones contra la web abierta. Para cerrar esta brecha, presentamos Video-BrowseComp, un punto de referencia desafiante que comprende 210 preguntas diseñadas para el razonamiento agentivo de video en la web abierta. A diferencia de puntos de referencia anteriores, Video-BrowseComp impone una dependencia obligatoria de la evidencia visual temporal, asegurando que las respuestas no puedan derivarse únicamente mediante búsqueda de texto, sino que requieran navegar las líneas de tiempo de video para verificar afirmaciones externas. Nuestra evaluación de modelos de última generación revela un cuello de botella crítico: incluso modelos avanzados aumentados con búsqueda, como GPT-5.1 (con Búsqueda), alcanzan solo un 15.24% de precisión. Nuestro análisis revela que estos modelos dependen en gran medida de proxies textuales, destacando en dominios ricos en metadatos (por ejemplo, programas de TV con resúmenes de trama) pero colapsando en entornos dinámicos con metadatos escasos (por ejemplo, deportes, gameplay) donde la base visual es esencial. Como el primer punto de referencia de investigación de video en la web abierta, Video-BrowseComp impulsa el campo más allá de la percepción pasiva hacia el razonamiento proactivo con video.
English
The evolution of autonomous agents is redefining information seeking, transitioning from passive retrieval to proactive, open-ended web research. However, while textual and static multimodal agents have seen rapid progress, a significant modality gap remains in processing the web's most dynamic modality: video. Existing video benchmarks predominantly focus on passive perception, feeding curated clips to models without requiring external retrieval. They fail to evaluate agentic video research, which necessitates actively interrogating video timelines, cross-referencing dispersed evidence, and verifying claims against the open web. To bridge this gap, we present Video-BrowseComp, a challenging benchmark comprising 210 questions tailored for open-web agentic video reasoning. Unlike prior benchmarks, Video-BrowseComp enforces a mandatory dependency on temporal visual evidence, ensuring that answers cannot be derived solely through text search but require navigating video timelines to verify external claims. Our evaluation of state-of-the-art models reveals a critical bottleneck: even advanced search-augmented models like GPT-5.1 (w/ Search) achieve only 15.24\% accuracy. Our analysis reveals that these models largely rely on textual proxies, excelling in metadata-rich domains (e.g., TV shows with plot summaries) but collapsing in metadata-sparse, dynamic environments (e.g., sports, gameplay) where visual grounding is essential. As the first open-web video research benchmark, Video-BrowseComp advances the field beyond passive perception toward proactive video reasoning.