ExpVid: Бенчмарк для понимания и анализа экспериментальных видеозаписей
ExpVid: A Benchmark for Experiment Video Understanding & Reasoning
October 13, 2025
Авторы: Yicheng Xu, Yue Wu, Jiashuo Yu, Ziang Yan, Tianxiang Jiang, Yinan He, Qingsong Zhao, Kai Chen, Yu Qiao, Limin Wang, Manabu Okumura, Yi Wang
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLMs) обещают ускорить научные открытия за счет интерпретации сложных экспериментальных процедур. Однако их реальные возможности плохо изучены, поскольку существующие тестовые наборы игнорируют детализированный и долгосрочный характер реальной лабораторной работы, особенно в условиях "мокрых" лабораторий. Чтобы устранить этот пробел, мы представляем ExpVid — первый тестовый набор, разработанный для систематической оценки MLLMs на видео научных экспериментов. Созданный на основе рецензируемых видеопубликаций, ExpVid включает новую трехуровневую иерархию задач, отражающую научный процесс: (1) Детализированное восприятие инструментов, материалов и действий; (2) Понимание порядка и полноты шагов процедуры; и (3) Научное рассуждение, связывающее весь эксперимент с опубликованными выводами. Наш визуально-ориентированный процесс аннотирования, сочетающий автоматизированную генерацию с многодисциплинарной экспертной проверкой, гарантирует, что задачи требуют визуального обоснования. Мы оценили 19 ведущих MLLMs на ExpVid и обнаружили, что, хотя они преуспевают в грубой классификации, они испытывают трудности с разграничением мелких деталей, отслеживанием изменений состояния во времени и связыванием экспериментальных процедур с научными результатами. Наши результаты выявили заметный разрыв в производительности между проприетарными и открытыми моделями, особенно в задачах высокого порядка. ExpVid не только предоставляет диагностический инструмент, но и намечает дорожную карту для разработки MLLMs, способных стать надежными партнерами в научных экспериментах.
English
Multimodal Large Language Models (MLLMs) hold promise for accelerating
scientific discovery by interpreting complex experimental procedures. However,
their true capabilities are poorly understood, as existing benchmarks neglect
the fine-grained and long-horizon nature of authentic laboratory work,
especially in wet-lab settings. To bridge this gap, we introduce ExpVid, the
first benchmark designed to systematically evaluate MLLMs on scientific
experiment videos. Curated from peer-reviewed video publications, ExpVid
features a new three-level task hierarchy that mirrors the scientific process:
(1) Fine-grained Perception of tools, materials, and actions; (2) Procedural
Understanding of step order and completeness; and (3) Scientific Reasoning that
connects the full experiment to its published conclusions. Our vision-centric
annotation pipeline, combining automated generation with multi-disciplinary
expert validation, ensures that tasks require visual grounding. We evaluate 19
leading MLLMs on ExpVid and find that while they excel at coarse-grained
recognition, they struggle with disambiguating fine details, tracking state
changes over time, and linking experimental procedures to scientific outcomes.
Our results reveal a notable performance gap between proprietary and
open-source models, particularly in high-order reasoning. ExpVid not only
provides a diagnostic tool but also charts a roadmap for developing MLLMs
capable of becoming trustworthy partners in scientific experimentation.