Video-BrowseComp : Évaluation de la recherche vidéo agentique sur le Web ouvert
Video-BrowseComp: Benchmarking Agentic Video Research on Open Web
December 28, 2025
papers.authors: Zhengyang Liang, Yan Shu, Xiangrui Liu, Minghao Qin, Kaixin Liang, Paolo Rota, Nicu Sebe, Zheng Liu, Lizi Liao
cs.AI
papers.abstract
L'évolution des agents autonomes redéfinit la recherche d'information, opérant une transition d'une récupération passive vers une recherche web proactive et ouverte. Cependant, si les agents textuels et multimodaux statiques ont connu des progrès rapides, un écart modal significatif persiste dans le traitement de la modalité la plus dynamique du web : la vidéo. Les benchmarks vidéo existants se concentrent principalement sur la perception passive, fournissant des clips présélectionnés aux modèles sans nécessiter de recherche externe. Ils n'évaluent pas la recherche vidéo agentique, qui nécessite d'interroger activement les chronologies vidéo, de recouper des preuves dispersées et de vérifier les affirmations par rapport au web ouvert. Pour combler cette lacune, nous présentons Video-BrowseComp, un benchmark exigeant comprenant 210 questions conçues pour le raisonnement vidéo agentique sur le web ouvert. Contrairement aux benchmarks antérieurs, Video-BrowseComp impose une dépendance obligatoire aux preuves visuelles temporelles, garantissant que les réponses ne peuvent pas être obtenues uniquement par une recherche texte mais nécessitent de naviguer dans les chronologies vidéo pour vérifier des affirmations externes. Notre évaluation des modèles de pointe révèle un goulot d'étranglement critique : même des modèles augmentés par la recherche avancés comme GPT-5.1 (avec recherche) n'atteignent qu'une précision de 15,24 %. Notre analyse montre que ces modèles s'appuient largement sur des proxys textuels, excellant dans les domaines riches en métadonnées (par exemple, les émissions de télévision avec des résumés d'intrigue) mais échouant dans les environnements dynamiques pauvres en métadonnées (par exemple, le sport, le gameplay) où l'ancrage visuel est essentiel. En tant que premier benchmark de recherche vidéo sur le web ouvert, Video-BrowseComp fait progresser le domaine au-delà de la perception passive vers un raisonnement vidéo proactif.
English
The evolution of autonomous agents is redefining information seeking, transitioning from passive retrieval to proactive, open-ended web research. However, while textual and static multimodal agents have seen rapid progress, a significant modality gap remains in processing the web's most dynamic modality: video. Existing video benchmarks predominantly focus on passive perception, feeding curated clips to models without requiring external retrieval. They fail to evaluate agentic video research, which necessitates actively interrogating video timelines, cross-referencing dispersed evidence, and verifying claims against the open web. To bridge this gap, we present Video-BrowseComp, a challenging benchmark comprising 210 questions tailored for open-web agentic video reasoning. Unlike prior benchmarks, Video-BrowseComp enforces a mandatory dependency on temporal visual evidence, ensuring that answers cannot be derived solely through text search but require navigating video timelines to verify external claims. Our evaluation of state-of-the-art models reveals a critical bottleneck: even advanced search-augmented models like GPT-5.1 (w/ Search) achieve only 15.24\% accuracy. Our analysis reveals that these models largely rely on textual proxies, excelling in metadata-rich domains (e.g., TV shows with plot summaries) but collapsing in metadata-sparse, dynamic environments (e.g., sports, gameplay) where visual grounding is essential. As the first open-web video research benchmark, Video-BrowseComp advances the field beyond passive perception toward proactive video reasoning.