SciVideoBench : Évaluation des capacités de raisonnement sur des vidéos scientifiques dans les grands modèles multimodaux
SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models
October 9, 2025
papers.authors: Andong Deng, Taojiannan Yang, Shoubin Yu, Lincoln Spencer, Mohit Bansal, Chen Chen, Serena Yeung-Levy, Xiaohan Wang
cs.AI
papers.abstract
Les modèles multimodaux de grande envergure (LMMs) ont réalisé des progrès remarquables dans diverses capacités ; cependant, le raisonnement complexe sur des vidéos dans le domaine scientifique reste une frontière importante et difficile. Les benchmarks vidéo actuels ciblent principalement des scénarios généraux où la perception/reconnaissance est fortement sollicitée, tout en proposant des tâches de raisonnement relativement simples, conduisant à une saturation et échouant ainsi à évaluer efficacement les compétences cognitives multimodales avancées. Pour combler cette lacune critique, nous introduisons SciVideoBench, un benchmark rigoureux spécialement conçu pour évaluer le raisonnement vidéo avancé dans des contextes scientifiques. SciVideoBench se compose de 1 000 questions à choix multiples soigneusement élaborées, dérivées de vidéos d'expériences scientifiques de pointe couvrant plus de 25 disciplines académiques spécialisées et vérifiées par un système semi-automatique. Chaque question exige une connaissance approfondie du domaine, une perception spatiotemporelle précise et un raisonnement logique complexe, mettant ainsi efficacement à l'épreuve les capacités cognitives d'ordre supérieur des modèles. Notre évaluation met en lumière des déficits de performance significatifs chez les LMMs propriétaires et open-source de pointe, y compris Gemini 2.5 Pro et Qwen2.5-VL, indiquant une marge substantielle d'amélioration dans les capacités de raisonnement vidéo. Des analyses détaillées de facteurs critiques tels que la complexité du raisonnement et l'ancrage visuel fournissent des insights précieux et une orientation claire pour les développements futurs des LMMs, propulsant l'évolution de véritables co-scientifiques IA multimodaux compétents. Nous espérons que SciVideoBench répondra aux intérêts de la communauté et contribuera à repousser les limites de l'IA de pointe pour une science plus large.
English
Large Multimodal Models (LMMs) have achieved remarkable progress across
various capabilities; however, complex video reasoning in the scientific domain
remains a significant and challenging frontier. Current video benchmarks
predominantly target general scenarios where perception/recognition is heavily
relied on, while with relatively simple reasoning tasks, leading to saturation
and thus failing to effectively evaluate advanced multimodal cognitive skills.
To address this critical gap, we introduce SciVideoBench, a rigorous benchmark
specifically designed to assess advanced video reasoning in scientific
contexts. SciVideoBench consists of 1,000 carefully crafted multiple-choice
questions derived from cutting-edge scientific experimental videos spanning
over 25 specialized academic subjects and verified by a semi-automatic system.
Each question demands sophisticated domain-specific knowledge, precise
spatiotemporal perception, and intricate logical reasoning, effectively
challenging models' higher-order cognitive abilities. Our evaluation highlights
significant performance deficits in state-of-the-art proprietary and
open-source LMMs, including Gemini 2.5 Pro and Qwen2.5-VL, indicating
substantial room for advancement in video reasoning capabilities. Detailed
analyses of critical factors such as reasoning complexity and visual grounding
provide valuable insights and clear direction for future developments in LMMs,
driving the evolution of truly capable multimodal AI co-scientists. We hope
SciVideoBench could fit the interests of the community and help to push the
boundary of cutting-edge AI for border science.