ExpVid: Een Benchmark voor Experimentvideo-begrip en Redeneren

Samenvatting

Multimodale Large Language Models (MLLMs) bieden veelbelovende mogelijkheden om wetenschappelijke ontdekkingen te versnellen door complexe experimentele procedures te interpreteren. Hun werkelijke capaciteiten zijn echter slecht begrepen, omdat bestaande benchmarks de fijnmazige en langetermijnaspecten van authentiek laboratoriumwerk, met name in natte-labomgevingen, verwaarlozen. Om deze kloof te overbruggen, introduceren we ExpVid, de eerste benchmark die is ontworpen om MLLMs systematisch te evalueren op wetenschappelijke experimentvideo's. Gecureerd uit peer-reviewed videopublicaties, biedt ExpVid een nieuwe drielaagse taakhierarchie die het wetenschappelijke proces weerspiegelt: (1) Fijnmazige waarneming van gereedschappen, materialen en handelingen; (2) Procedureel begrip van stapvolgorde en volledigheid; en (3) Wetenschappelijk redeneren dat het volledige experiment verbindt met de gepubliceerde conclusies. Onze visiegerichte annotatiepipeline, die automatische generatie combineert met multidisciplinaire expertvalidatie, zorgt ervoor dat taken visuele verankering vereisen. We evalueren 19 toonaangevende MLLMs op ExpVid en constateren dat ze uitblinken in grofmazige herkenning, maar moeite hebben met het onderscheiden van fijne details, het volgen van toestandsveranderingen over tijd en het koppelen van experimentele procedures aan wetenschappelijke resultaten. Onze resultaten onthullen een opmerkelijk prestatieverschil tussen propriëtaire en open-source modellen, met name in hogere-orde redenering. ExpVid biedt niet alleen een diagnostisch hulpmiddel, maar schetst ook een routekaart voor de ontwikkeling van MLLMs die betrouwbare partners kunnen worden in wetenschappelijke experimenten.

English

Multimodal Large Language Models (MLLMs) hold promise for accelerating scientific discovery by interpreting complex experimental procedures. However, their true capabilities are poorly understood, as existing benchmarks neglect the fine-grained and long-horizon nature of authentic laboratory work, especially in wet-lab settings. To bridge this gap, we introduce ExpVid, the first benchmark designed to systematically evaluate MLLMs on scientific experiment videos. Curated from peer-reviewed video publications, ExpVid features a new three-level task hierarchy that mirrors the scientific process: (1) Fine-grained Perception of tools, materials, and actions; (2) Procedural Understanding of step order and completeness; and (3) Scientific Reasoning that connects the full experiment to its published conclusions. Our vision-centric annotation pipeline, combining automated generation with multi-disciplinary expert validation, ensures that tasks require visual grounding. We evaluate 19 leading MLLMs on ExpVid and find that while they excel at coarse-grained recognition, they struggle with disambiguating fine details, tracking state changes over time, and linking experimental procedures to scientific outcomes. Our results reveal a notable performance gap between proprietary and open-source models, particularly in high-order reasoning. ExpVid not only provides a diagnostic tool but also charts a roadmap for developing MLLMs capable of becoming trustworthy partners in scientific experimentation.

ExpVid: Een Benchmark voor Experimentvideo-begrip en Redeneren

ExpVid: A Benchmark for Experiment Video Understanding & Reasoning

Samenvatting

Support