SciVideoBench: Benchmarking der wissenschaftlichen Videoanalyse in großen multimodalen Modellen
SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models
October 9, 2025
papers.authors: Andong Deng, Taojiannan Yang, Shoubin Yu, Lincoln Spencer, Mohit Bansal, Chen Chen, Serena Yeung-Levy, Xiaohan Wang
cs.AI
papers.abstract
Große multimodale Modelle (LMMs) haben bemerkenswerte Fortschritte in verschiedenen Fähigkeiten erzielt; jedoch bleibt komplexes Video-Verstehen im wissenschaftlichen Bereich eine bedeutende und herausfordernde Grenze. Aktuelle Video-Benchmarks konzentrieren sich hauptsächlich auf allgemeine Szenarien, in denen die Wahrnehmung/Erkennung stark im Vordergrund steht, während die Aufgaben relativ einfache Schlussfolgerungen erfordern, was zu einer Sättigung führt und somit die effektive Bewertung fortgeschrittener multimodaler kognitiver Fähigkeiten behindert. Um diese kritische Lücke zu schließen, führen wir SciVideoBench ein, einen rigorosen Benchmark, der speziell entwickelt wurde, um fortgeschrittenes Video-Verstehen in wissenschaftlichen Kontexten zu bewerten. SciVideoBench besteht aus 1.000 sorgfältig gestalteten Multiple-Choice-Fragen, die aus modernsten wissenschaftlichen Experimentvideos abgeleitet wurden und über 25 spezialisierte akademische Fächer abdecken. Diese Fragen wurden durch ein halbautomatisches System verifiziert. Jede Frage erfordert tiefgreifendes domänenspezifisches Wissen, präzise raumzeitliche Wahrnehmung und komplexe logische Schlussfolgerungen, wodurch die höheren kognitiven Fähigkeiten der Modelle effektiv herausgefordert werden. Unsere Bewertung zeigt erhebliche Leistungsdefizite bei den derzeit besten proprietären und Open-Source-LMMs, einschließlich Gemini 2.5 Pro und Qwen2.5-VL, was auf erheblichen Verbesserungsbedarf bei den Video-Verstehen-Fähigkeiten hinweist. Detaillierte Analysen kritischer Faktoren wie die Komplexität der Schlussfolgerungen und die visuelle Verankerung bieten wertvolle Einblicke und klare Richtungen für zukünftige Entwicklungen in LMMs, die die Entwicklung von wirklich fähigen multimodalen KI-Mitarbeitern in der Wissenschaft vorantreiben. Wir hoffen, dass SciVideoBench das Interesse der Gemeinschaft weckt und dazu beiträgt, die Grenzen der modernen KI für die Wissenschaft zu erweitern.
English
Large Multimodal Models (LMMs) have achieved remarkable progress across
various capabilities; however, complex video reasoning in the scientific domain
remains a significant and challenging frontier. Current video benchmarks
predominantly target general scenarios where perception/recognition is heavily
relied on, while with relatively simple reasoning tasks, leading to saturation
and thus failing to effectively evaluate advanced multimodal cognitive skills.
To address this critical gap, we introduce SciVideoBench, a rigorous benchmark
specifically designed to assess advanced video reasoning in scientific
contexts. SciVideoBench consists of 1,000 carefully crafted multiple-choice
questions derived from cutting-edge scientific experimental videos spanning
over 25 specialized academic subjects and verified by a semi-automatic system.
Each question demands sophisticated domain-specific knowledge, precise
spatiotemporal perception, and intricate logical reasoning, effectively
challenging models' higher-order cognitive abilities. Our evaluation highlights
significant performance deficits in state-of-the-art proprietary and
open-source LMMs, including Gemini 2.5 Pro and Qwen2.5-VL, indicating
substantial room for advancement in video reasoning capabilities. Detailed
analyses of critical factors such as reasoning complexity and visual grounding
provide valuable insights and clear direction for future developments in LMMs,
driving the evolution of truly capable multimodal AI co-scientists. We hope
SciVideoBench could fit the interests of the community and help to push the
boundary of cutting-edge AI for border science.