ExpVid: Ein Benchmark für das Verständnis und die Schlussfolgerung von Experimentvideos

papers.abstract

Multimodale Large Language Models (MLLMs) bergen das Potenzial, wissenschaftliche Entdeckungen zu beschleunigen, indem sie komplexe experimentelle Verfahren interpretieren. Ihre tatsächlichen Fähigkeiten sind jedoch kaum verstanden, da bestehende Benchmarks die feingranulare und langfristige Natur authentischer Laborarbeit, insbesondere in Nasslabors, vernachlässigen. Um diese Lücke zu schließen, stellen wir ExpVid vor, den ersten Benchmark, der systematisch die Leistung von MLLMs anhand von wissenschaftlichen Experimentvideos bewertet. ExpVid, das aus peer-reviewed Video-Publikationen kuratiert wurde, verfügt über eine neue dreistufige Aufgabenhierarchie, die den wissenschaftlichen Prozess widerspiegelt: (1) Fein granulare Wahrnehmung von Werkzeugen, Materialien und Handlungen; (2) Prozedurales Verständnis der Schrittreihenfolge und Vollständigkeit; und (3) Wissenschaftliches Denken, das das gesamte Experiment mit seinen veröffentlichten Schlussfolgerungen verbindet. Unsere visuell-zentrierte Annotationspipeline, die automatisierte Generierung mit multidisziplinärer Expertenvalidierung kombiniert, stellt sicher, dass die Aufgaben visuelle Verankerung erfordern. Wir evaluieren 19 führende MLLMs anhand von ExpVid und stellen fest, dass sie zwar bei grobkörniger Erkennung exzellent abschneiden, jedoch Schwierigkeiten haben, feine Details zu unterscheiden, Zustandsänderungen über die Zeit zu verfolgen und experimentelle Verfahren mit wissenschaftlichen Ergebnissen zu verknüpfen. Unsere Ergebnisse zeigen eine bemerkenswerte Leistungslücke zwischen proprietären und Open-Source-Modellen, insbesondere bei höherer Ordnung des Denkens. ExpVid bietet nicht nur ein Diagnosewerkzeug, sondern skizziert auch einen Fahrplan für die Entwicklung von MLLMs, die zu vertrauenswürdigen Partnern in der wissenschaftlichen Experimentation werden können.

English

Multimodal Large Language Models (MLLMs) hold promise for accelerating scientific discovery by interpreting complex experimental procedures. However, their true capabilities are poorly understood, as existing benchmarks neglect the fine-grained and long-horizon nature of authentic laboratory work, especially in wet-lab settings. To bridge this gap, we introduce ExpVid, the first benchmark designed to systematically evaluate MLLMs on scientific experiment videos. Curated from peer-reviewed video publications, ExpVid features a new three-level task hierarchy that mirrors the scientific process: (1) Fine-grained Perception of tools, materials, and actions; (2) Procedural Understanding of step order and completeness; and (3) Scientific Reasoning that connects the full experiment to its published conclusions. Our vision-centric annotation pipeline, combining automated generation with multi-disciplinary expert validation, ensures that tasks require visual grounding. We evaluate 19 leading MLLMs on ExpVid and find that while they excel at coarse-grained recognition, they struggle with disambiguating fine details, tracking state changes over time, and linking experimental procedures to scientific outcomes. Our results reveal a notable performance gap between proprietary and open-source models, particularly in high-order reasoning. ExpVid not only provides a diagnostic tool but also charts a roadmap for developing MLLMs capable of becoming trustworthy partners in scientific experimentation.

ExpVid: Ein Benchmark für das Verständnis und die Schlussfolgerung von Experimentvideos

ExpVid: A Benchmark for Experiment Video Understanding & Reasoning

papers.abstract

Support