SciVideoBench: Benchmark per la Valutazione del Ragionamento su Video Scientifici nei Modelli Multimodali di Grande Scala
SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models
October 9, 2025
Autori: Andong Deng, Taojiannan Yang, Shoubin Yu, Lincoln Spencer, Mohit Bansal, Chen Chen, Serena Yeung-Levy, Xiaohan Wang
cs.AI
Abstract
I Large Multimodal Models (LMMs) hanno compiuto progressi significativi in varie capacità; tuttavia, il ragionamento complesso sui video nel dominio scientifico rimane una frontiera importante e impegnativa. Gli attuali benchmark video si concentrano principalmente su scenari generali in cui la percezione/riconoscimento è fortemente utilizzata, con compiti di ragionamento relativamente semplici, portando a una saturazione e quindi fallendo nel valutare efficacemente le abilità cognitive multimodali avanzate. Per colmare questa lacuna critica, introduciamo SciVideoBench, un benchmark rigoroso progettato specificamente per valutare il ragionamento avanzato sui video in contesti scientifici. SciVideoBench consiste in 1.000 domande a scelta multipla accuratamente elaborate, derivate da video sperimentali scientifici all'avanguardia che coprono oltre 25 discipline accademiche specializzate e verificate da un sistema semi-automatico. Ogni domanda richiede una conoscenza specifica del dominio, una percezione spazio-temporale precisa e un ragionamento logico intricato, mettendo efficacemente alla prova le capacità cognitive di ordine superiore dei modelli. La nostra valutazione evidenzia significativi deficit di prestazioni nei LMMs proprietari e open-source più avanzati, tra cui Gemini 2.5 Pro e Qwen2.5-VL, indicando un ampio margine di miglioramento nelle capacità di ragionamento video. Analisi dettagliate di fattori critici come la complessità del ragionamento e l'ancoraggio visivo forniscono preziose intuizioni e una chiara direzione per i futuri sviluppi nei LMMs, guidando l'evoluzione di veri e propri co-scienziati AI multimodali. Speriamo che SciVideoBench possa rispondere agli interessi della comunità e contribuire a spingere i confini dell'IA all'avanguardia per una scienza più ampia.
English
Large Multimodal Models (LMMs) have achieved remarkable progress across
various capabilities; however, complex video reasoning in the scientific domain
remains a significant and challenging frontier. Current video benchmarks
predominantly target general scenarios where perception/recognition is heavily
relied on, while with relatively simple reasoning tasks, leading to saturation
and thus failing to effectively evaluate advanced multimodal cognitive skills.
To address this critical gap, we introduce SciVideoBench, a rigorous benchmark
specifically designed to assess advanced video reasoning in scientific
contexts. SciVideoBench consists of 1,000 carefully crafted multiple-choice
questions derived from cutting-edge scientific experimental videos spanning
over 25 specialized academic subjects and verified by a semi-automatic system.
Each question demands sophisticated domain-specific knowledge, precise
spatiotemporal perception, and intricate logical reasoning, effectively
challenging models' higher-order cognitive abilities. Our evaluation highlights
significant performance deficits in state-of-the-art proprietary and
open-source LMMs, including Gemini 2.5 Pro and Qwen2.5-VL, indicating
substantial room for advancement in video reasoning capabilities. Detailed
analyses of critical factors such as reasoning complexity and visual grounding
provide valuable insights and clear direction for future developments in LMMs,
driving the evolution of truly capable multimodal AI co-scientists. We hope
SciVideoBench could fit the interests of the community and help to push the
boundary of cutting-edge AI for border science.