SciVideoBench: Benchmarking der wissenschaftlichen Videoanalyse in großen multimodalen Modellen

papers.abstract

Große multimodale Modelle (LMMs) haben bemerkenswerte Fortschritte in verschiedenen Fähigkeiten erzielt; jedoch bleibt komplexes Video-Verstehen im wissenschaftlichen Bereich eine bedeutende und herausfordernde Grenze. Aktuelle Video-Benchmarks konzentrieren sich hauptsächlich auf allgemeine Szenarien, in denen die Wahrnehmung/Erkennung stark im Vordergrund steht, während die Aufgaben relativ einfache Schlussfolgerungen erfordern, was zu einer Sättigung führt und somit die effektive Bewertung fortgeschrittener multimodaler kognitiver Fähigkeiten behindert. Um diese kritische Lücke zu schließen, führen wir SciVideoBench ein, einen rigorosen Benchmark, der speziell entwickelt wurde, um fortgeschrittenes Video-Verstehen in wissenschaftlichen Kontexten zu bewerten. SciVideoBench besteht aus 1.000 sorgfältig gestalteten Multiple-Choice-Fragen, die aus modernsten wissenschaftlichen Experimentvideos abgeleitet wurden und über 25 spezialisierte akademische Fächer abdecken. Diese Fragen wurden durch ein halbautomatisches System verifiziert. Jede Frage erfordert tiefgreifendes domänenspezifisches Wissen, präzise raumzeitliche Wahrnehmung und komplexe logische Schlussfolgerungen, wodurch die höheren kognitiven Fähigkeiten der Modelle effektiv herausgefordert werden. Unsere Bewertung zeigt erhebliche Leistungsdefizite bei den derzeit besten proprietären und Open-Source-LMMs, einschließlich Gemini 2.5 Pro und Qwen2.5-VL, was auf erheblichen Verbesserungsbedarf bei den Video-Verstehen-Fähigkeiten hinweist. Detaillierte Analysen kritischer Faktoren wie die Komplexität der Schlussfolgerungen und die visuelle Verankerung bieten wertvolle Einblicke und klare Richtungen für zukünftige Entwicklungen in LMMs, die die Entwicklung von wirklich fähigen multimodalen KI-Mitarbeitern in der Wissenschaft vorantreiben. Wir hoffen, dass SciVideoBench das Interesse der Gemeinschaft weckt und dazu beiträgt, die Grenzen der modernen KI für die Wissenschaft zu erweitern.

English

Large Multimodal Models (LMMs) have achieved remarkable progress across various capabilities; however, complex video reasoning in the scientific domain remains a significant and challenging frontier. Current video benchmarks predominantly target general scenarios where perception/recognition is heavily relied on, while with relatively simple reasoning tasks, leading to saturation and thus failing to effectively evaluate advanced multimodal cognitive skills. To address this critical gap, we introduce SciVideoBench, a rigorous benchmark specifically designed to assess advanced video reasoning in scientific contexts. SciVideoBench consists of 1,000 carefully crafted multiple-choice questions derived from cutting-edge scientific experimental videos spanning over 25 specialized academic subjects and verified by a semi-automatic system. Each question demands sophisticated domain-specific knowledge, precise spatiotemporal perception, and intricate logical reasoning, effectively challenging models' higher-order cognitive abilities. Our evaluation highlights significant performance deficits in state-of-the-art proprietary and open-source LMMs, including Gemini 2.5 Pro and Qwen2.5-VL, indicating substantial room for advancement in video reasoning capabilities. Detailed analyses of critical factors such as reasoning complexity and visual grounding provide valuable insights and clear direction for future developments in LMMs, driving the evolution of truly capable multimodal AI co-scientists. We hope SciVideoBench could fit the interests of the community and help to push the boundary of cutting-edge AI for border science.

SciVideoBench: Benchmarking der wissenschaftlichen Videoanalyse in großen multimodalen Modellen

SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models

papers.abstract

Support