SciVideoBench: Benchmarking van wetenschappelijke videoredenatie in grote multimodale modellen
SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models
October 9, 2025
Auteurs: Andong Deng, Taojiannan Yang, Shoubin Yu, Lincoln Spencer, Mohit Bansal, Chen Chen, Serena Yeung-Levy, Xiaohan Wang
cs.AI
Samenvatting
Grote Multimodale Modellen (LMMs) hebben opmerkelijke vooruitgang geboekt op verschillende gebieden; complexe videoredenering in het wetenschappelijke domein blijft echter een belangrijk en uitdagend front. Huidige videobenchmarks richten zich voornamelijk op algemene scenario's waarbij perceptie/herkenning zwaar wordt vertrouwd, terwijl de redeneertaken relatief eenvoudig zijn, wat leidt tot verzadiging en daardoor niet effectief geavanceerde multimodale cognitieve vaardigheden kan evalueren. Om dit kritieke gat te dichten, introduceren we SciVideoBench, een rigoureuze benchmark die specifiek is ontworpen om geavanceerde videoredenering in wetenschappelijke contexten te beoordelen. SciVideoBench bestaat uit 1.000 zorgvuldig samengestelde meerkeuzevragen, afgeleid van baanbrekende wetenschappelijke experimentele video's die meer dan 25 gespecialiseerde academische vakgebieden beslaan en geverifieerd zijn door een semi-automatisch systeem. Elke vraag vereist geavanceerde domeinspecifieke kennis, nauwkeurige spatiotemporele perceptie en ingewikkelde logische redenering, waardoor de hogere-orde cognitieve vaardigheden van modellen effectief worden uitgedaagd. Onze evaluatie benadrukt aanzienlijke prestatieachterstanden in state-of-the-art propriëtaire en open-source LMMs, waaronder Gemini 2.5 Pro en Qwen2.5-VL, wat wijst op aanzienlijke ruimte voor verbetering in videoredeneervaardigheden. Gedetailleerde analyses van kritieke factoren zoals redeneercomplexiteit en visuele verankering bieden waardevolle inzichten en een duidelijke richting voor toekomstige ontwikkelingen in LMMs, waardoor de evolutie van echt capabele multimodale AI-co-wetenschappers wordt gestimuleerd. We hopen dat SciVideoBench aansluit bij de interesses van de gemeenschap en helpt om de grenzen van baanbrekende AI voor bredere wetenschap te verleggen.
English
Large Multimodal Models (LMMs) have achieved remarkable progress across
various capabilities; however, complex video reasoning in the scientific domain
remains a significant and challenging frontier. Current video benchmarks
predominantly target general scenarios where perception/recognition is heavily
relied on, while with relatively simple reasoning tasks, leading to saturation
and thus failing to effectively evaluate advanced multimodal cognitive skills.
To address this critical gap, we introduce SciVideoBench, a rigorous benchmark
specifically designed to assess advanced video reasoning in scientific
contexts. SciVideoBench consists of 1,000 carefully crafted multiple-choice
questions derived from cutting-edge scientific experimental videos spanning
over 25 specialized academic subjects and verified by a semi-automatic system.
Each question demands sophisticated domain-specific knowledge, precise
spatiotemporal perception, and intricate logical reasoning, effectively
challenging models' higher-order cognitive abilities. Our evaluation highlights
significant performance deficits in state-of-the-art proprietary and
open-source LMMs, including Gemini 2.5 Pro and Qwen2.5-VL, indicating
substantial room for advancement in video reasoning capabilities. Detailed
analyses of critical factors such as reasoning complexity and visual grounding
provide valuable insights and clear direction for future developments in LMMs,
driving the evolution of truly capable multimodal AI co-scientists. We hope
SciVideoBench could fit the interests of the community and help to push the
boundary of cutting-edge AI for border science.