SciVideoBench: Benchmark per la Valutazione del Ragionamento su Video Scientifici nei Modelli Multimodali di Grande Scala

Abstract

I Large Multimodal Models (LMMs) hanno compiuto progressi significativi in varie capacità; tuttavia, il ragionamento complesso sui video nel dominio scientifico rimane una frontiera importante e impegnativa. Gli attuali benchmark video si concentrano principalmente su scenari generali in cui la percezione/riconoscimento è fortemente utilizzata, con compiti di ragionamento relativamente semplici, portando a una saturazione e quindi fallendo nel valutare efficacemente le abilità cognitive multimodali avanzate. Per colmare questa lacuna critica, introduciamo SciVideoBench, un benchmark rigoroso progettato specificamente per valutare il ragionamento avanzato sui video in contesti scientifici. SciVideoBench consiste in 1.000 domande a scelta multipla accuratamente elaborate, derivate da video sperimentali scientifici all'avanguardia che coprono oltre 25 discipline accademiche specializzate e verificate da un sistema semi-automatico. Ogni domanda richiede una conoscenza specifica del dominio, una percezione spazio-temporale precisa e un ragionamento logico intricato, mettendo efficacemente alla prova le capacità cognitive di ordine superiore dei modelli. La nostra valutazione evidenzia significativi deficit di prestazioni nei LMMs proprietari e open-source più avanzati, tra cui Gemini 2.5 Pro e Qwen2.5-VL, indicando un ampio margine di miglioramento nelle capacità di ragionamento video. Analisi dettagliate di fattori critici come la complessità del ragionamento e l'ancoraggio visivo forniscono preziose intuizioni e una chiara direzione per i futuri sviluppi nei LMMs, guidando l'evoluzione di veri e propri co-scienziati AI multimodali. Speriamo che SciVideoBench possa rispondere agli interessi della comunità e contribuire a spingere i confini dell'IA all'avanguardia per una scienza più ampia.

English

Large Multimodal Models (LMMs) have achieved remarkable progress across various capabilities; however, complex video reasoning in the scientific domain remains a significant and challenging frontier. Current video benchmarks predominantly target general scenarios where perception/recognition is heavily relied on, while with relatively simple reasoning tasks, leading to saturation and thus failing to effectively evaluate advanced multimodal cognitive skills. To address this critical gap, we introduce SciVideoBench, a rigorous benchmark specifically designed to assess advanced video reasoning in scientific contexts. SciVideoBench consists of 1,000 carefully crafted multiple-choice questions derived from cutting-edge scientific experimental videos spanning over 25 specialized academic subjects and verified by a semi-automatic system. Each question demands sophisticated domain-specific knowledge, precise spatiotemporal perception, and intricate logical reasoning, effectively challenging models' higher-order cognitive abilities. Our evaluation highlights significant performance deficits in state-of-the-art proprietary and open-source LMMs, including Gemini 2.5 Pro and Qwen2.5-VL, indicating substantial room for advancement in video reasoning capabilities. Detailed analyses of critical factors such as reasoning complexity and visual grounding provide valuable insights and clear direction for future developments in LMMs, driving the evolution of truly capable multimodal AI co-scientists. We hope SciVideoBench could fit the interests of the community and help to push the boundary of cutting-edge AI for border science.

SciVideoBench: Benchmark per la Valutazione del Ragionamento su Video Scientifici nei Modelli Multimodali di Grande Scala

SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models

Abstract

Support