ExpVid: Een Benchmark voor Experimentvideo-begrip en Redeneren
ExpVid: A Benchmark for Experiment Video Understanding & Reasoning
October 13, 2025
Auteurs: Yicheng Xu, Yue Wu, Jiashuo Yu, Ziang Yan, Tianxiang Jiang, Yinan He, Qingsong Zhao, Kai Chen, Yu Qiao, Limin Wang, Manabu Okumura, Yi Wang
cs.AI
Samenvatting
Multimodale Large Language Models (MLLMs) bieden veelbelovende mogelijkheden om wetenschappelijke ontdekkingen te versnellen door complexe experimentele procedures te interpreteren. Hun werkelijke capaciteiten zijn echter slecht begrepen, omdat bestaande benchmarks de fijnmazige en langetermijnaspecten van authentiek laboratoriumwerk, met name in natte-labomgevingen, verwaarlozen. Om deze kloof te overbruggen, introduceren we ExpVid, de eerste benchmark die is ontworpen om MLLMs systematisch te evalueren op wetenschappelijke experimentvideo's. Gecureerd uit peer-reviewed videopublicaties, biedt ExpVid een nieuwe drielaagse taakhierarchie die het wetenschappelijke proces weerspiegelt: (1) Fijnmazige waarneming van gereedschappen, materialen en handelingen; (2) Procedureel begrip van stapvolgorde en volledigheid; en (3) Wetenschappelijk redeneren dat het volledige experiment verbindt met de gepubliceerde conclusies. Onze visiegerichte annotatiepipeline, die automatische generatie combineert met multidisciplinaire expertvalidatie, zorgt ervoor dat taken visuele verankering vereisen. We evalueren 19 toonaangevende MLLMs op ExpVid en constateren dat ze uitblinken in grofmazige herkenning, maar moeite hebben met het onderscheiden van fijne details, het volgen van toestandsveranderingen over tijd en het koppelen van experimentele procedures aan wetenschappelijke resultaten. Onze resultaten onthullen een opmerkelijk prestatieverschil tussen propriëtaire en open-source modellen, met name in hogere-orde redenering. ExpVid biedt niet alleen een diagnostisch hulpmiddel, maar schetst ook een routekaart voor de ontwikkeling van MLLMs die betrouwbare partners kunnen worden in wetenschappelijke experimenten.
English
Multimodal Large Language Models (MLLMs) hold promise for accelerating
scientific discovery by interpreting complex experimental procedures. However,
their true capabilities are poorly understood, as existing benchmarks neglect
the fine-grained and long-horizon nature of authentic laboratory work,
especially in wet-lab settings. To bridge this gap, we introduce ExpVid, the
first benchmark designed to systematically evaluate MLLMs on scientific
experiment videos. Curated from peer-reviewed video publications, ExpVid
features a new three-level task hierarchy that mirrors the scientific process:
(1) Fine-grained Perception of tools, materials, and actions; (2) Procedural
Understanding of step order and completeness; and (3) Scientific Reasoning that
connects the full experiment to its published conclusions. Our vision-centric
annotation pipeline, combining automated generation with multi-disciplinary
expert validation, ensures that tasks require visual grounding. We evaluate 19
leading MLLMs on ExpVid and find that while they excel at coarse-grained
recognition, they struggle with disambiguating fine details, tracking state
changes over time, and linking experimental procedures to scientific outcomes.
Our results reveal a notable performance gap between proprietary and
open-source models, particularly in high-order reasoning. ExpVid not only
provides a diagnostic tool but also charts a roadmap for developing MLLMs
capable of becoming trustworthy partners in scientific experimentation.