ExpVid: Ein Benchmark für das Verständnis und die Schlussfolgerung von Experimentvideos
ExpVid: A Benchmark for Experiment Video Understanding & Reasoning
October 13, 2025
papers.authors: Yicheng Xu, Yue Wu, Jiashuo Yu, Ziang Yan, Tianxiang Jiang, Yinan He, Qingsong Zhao, Kai Chen, Yu Qiao, Limin Wang, Manabu Okumura, Yi Wang
cs.AI
papers.abstract
Multimodale Large Language Models (MLLMs) bergen das Potenzial, wissenschaftliche Entdeckungen zu beschleunigen, indem sie komplexe experimentelle Verfahren interpretieren. Ihre tatsächlichen Fähigkeiten sind jedoch kaum verstanden, da bestehende Benchmarks die feingranulare und langfristige Natur authentischer Laborarbeit, insbesondere in Nasslabors, vernachlässigen. Um diese Lücke zu schließen, stellen wir ExpVid vor, den ersten Benchmark, der systematisch die Leistung von MLLMs anhand von wissenschaftlichen Experimentvideos bewertet. ExpVid, das aus peer-reviewed Video-Publikationen kuratiert wurde, verfügt über eine neue dreistufige Aufgabenhierarchie, die den wissenschaftlichen Prozess widerspiegelt: (1) Fein granulare Wahrnehmung von Werkzeugen, Materialien und Handlungen; (2) Prozedurales Verständnis der Schrittreihenfolge und Vollständigkeit; und (3) Wissenschaftliches Denken, das das gesamte Experiment mit seinen veröffentlichten Schlussfolgerungen verbindet. Unsere visuell-zentrierte Annotationspipeline, die automatisierte Generierung mit multidisziplinärer Expertenvalidierung kombiniert, stellt sicher, dass die Aufgaben visuelle Verankerung erfordern. Wir evaluieren 19 führende MLLMs anhand von ExpVid und stellen fest, dass sie zwar bei grobkörniger Erkennung exzellent abschneiden, jedoch Schwierigkeiten haben, feine Details zu unterscheiden, Zustandsänderungen über die Zeit zu verfolgen und experimentelle Verfahren mit wissenschaftlichen Ergebnissen zu verknüpfen. Unsere Ergebnisse zeigen eine bemerkenswerte Leistungslücke zwischen proprietären und Open-Source-Modellen, insbesondere bei höherer Ordnung des Denkens. ExpVid bietet nicht nur ein Diagnosewerkzeug, sondern skizziert auch einen Fahrplan für die Entwicklung von MLLMs, die zu vertrauenswürdigen Partnern in der wissenschaftlichen Experimentation werden können.
English
Multimodal Large Language Models (MLLMs) hold promise for accelerating
scientific discovery by interpreting complex experimental procedures. However,
their true capabilities are poorly understood, as existing benchmarks neglect
the fine-grained and long-horizon nature of authentic laboratory work,
especially in wet-lab settings. To bridge this gap, we introduce ExpVid, the
first benchmark designed to systematically evaluate MLLMs on scientific
experiment videos. Curated from peer-reviewed video publications, ExpVid
features a new three-level task hierarchy that mirrors the scientific process:
(1) Fine-grained Perception of tools, materials, and actions; (2) Procedural
Understanding of step order and completeness; and (3) Scientific Reasoning that
connects the full experiment to its published conclusions. Our vision-centric
annotation pipeline, combining automated generation with multi-disciplinary
expert validation, ensures that tasks require visual grounding. We evaluate 19
leading MLLMs on ExpVid and find that while they excel at coarse-grained
recognition, they struggle with disambiguating fine details, tracking state
changes over time, and linking experimental procedures to scientific outcomes.
Our results reveal a notable performance gap between proprietary and
open-source models, particularly in high-order reasoning. ExpVid not only
provides a diagnostic tool but also charts a roadmap for developing MLLMs
capable of becoming trustworthy partners in scientific experimentation.