ExpVid: Un Benchmark per la Comprensione e il Ragionamento sui Video Sperimentali

Abstract

I Modelli Linguistici Multimodali di Grande Scala (MLLMs) promettono di accelerare la scoperta scientifica interpretando procedure sperimentali complesse. Tuttavia, le loro vere capacità sono poco comprese, poiché i benchmark esistenti trascurano la natura granulare e a lungo termine del lavoro di laboratorio autentico, specialmente in contesti di laboratorio umido. Per colmare questa lacuna, introduciamo ExpVid, il primo benchmark progettato per valutare sistematicamente gli MLLM sui video di esperimenti scientifici. Curato da pubblicazioni video sottoposte a revisione paritaria, ExpVid presenta una nuova gerarchia di compiti a tre livelli che riflette il processo scientifico: (1) Percezione Granulare di strumenti, materiali e azioni; (2) Comprensione Procedurale dell'ordine e della completezza dei passaggi; e (3) Ragionamento Scientifico che collega l'intero esperimento alle sue conclusioni pubblicate. La nostra pipeline di annotazione centrata sulla visione, che combina generazione automatizzata con validazione multidisciplinare di esperti, garantisce che i compiti richiedano un ancoraggio visivo. Valutiamo 19 MLLM leader su ExpVid e scopriamo che, mentre eccellono nel riconoscimento a grana grossa, faticano a disambiguare dettagli fini, a tracciare cambiamenti di stato nel tempo e a collegare procedure sperimentali a risultati scientifici. I nostri risultati rivelano un divario di prestazioni significativo tra modelli proprietari e open-source, specialmente nel ragionamento di ordine superiore. ExpVid non solo fornisce uno strumento diagnostico, ma traccia anche una roadmap per lo sviluppo di MLLM in grado di diventare partner affidabili nella sperimentazione scientifica.

English

Multimodal Large Language Models (MLLMs) hold promise for accelerating scientific discovery by interpreting complex experimental procedures. However, their true capabilities are poorly understood, as existing benchmarks neglect the fine-grained and long-horizon nature of authentic laboratory work, especially in wet-lab settings. To bridge this gap, we introduce ExpVid, the first benchmark designed to systematically evaluate MLLMs on scientific experiment videos. Curated from peer-reviewed video publications, ExpVid features a new three-level task hierarchy that mirrors the scientific process: (1) Fine-grained Perception of tools, materials, and actions; (2) Procedural Understanding of step order and completeness; and (3) Scientific Reasoning that connects the full experiment to its published conclusions. Our vision-centric annotation pipeline, combining automated generation with multi-disciplinary expert validation, ensures that tasks require visual grounding. We evaluate 19 leading MLLMs on ExpVid and find that while they excel at coarse-grained recognition, they struggle with disambiguating fine details, tracking state changes over time, and linking experimental procedures to scientific outcomes. Our results reveal a notable performance gap between proprietary and open-source models, particularly in high-order reasoning. ExpVid not only provides a diagnostic tool but also charts a roadmap for developing MLLMs capable of becoming trustworthy partners in scientific experimentation.

ExpVid: Un Benchmark per la Comprensione e il Ragionamento sui Video Sperimentali

ExpVid: A Benchmark for Experiment Video Understanding & Reasoning

Abstract

Support