MMVU: Misurare la Comprensione Video a Livello di Esperto in Diverse Discipline
MMVU: Measuring Expert-Level Multi-Discipline Video Understanding
January 21, 2025
Autori: Yilun Zhao, Lujing Xie, Haowei Zhang, Guo Gan, Yitao Long, Zhiyuan Hu, Tongyan Hu, Weiyuan Chen, Chuhan Li, Junyang Song, Zhijian Xu, Chengye Wang, Weifeng Pan, Ziyao Shangguan, Xiangru Tang, Zhenwen Liang, Yixin Liu, Chen Zhao, Arman Cohan
cs.AI
Abstract
Introduciamo MMVU, un ampio benchmark di livello esperto multidisciplinare per valutare i modelli di base nell'ambito della comprensione video. MMVU include 3.000 domande annotate da esperti che coprono 27 materie in quattro discipline principali: Scienze, Sanità, Discipline Umanistiche e Scienze Sociali, e Ingegneria. Rispetto ai benchmark precedenti, MMVU presenta tre principali innovazioni. In primo luogo, sfida i modelli ad applicare conoscenze specifiche di dominio e a eseguire ragionamenti di livello esperto per analizzare video di dominio specializzato, andando oltre la percezione visiva di base tipicamente valutata nei benchmark video attuali. In secondo luogo, ogni esempio è annotato da esperti umani da zero. Implementiamo rigorosi controlli sulla qualità dei dati per garantire l'alta qualità del dataset. Infine, ogni esempio è arricchito con ragionamenti annotati da esperti e conoscenze di dominio rilevanti, facilitando l'analisi approfondita. Conduciamo una valutazione approfondita di 32 modelli di base multimodali di frontiera su MMVU. I modelli più recenti capaci di System-2, o1 e Gemini 2.0 Flash Thinking, raggiungono le prestazioni più elevate tra i modelli testati. Tuttavia, non riescono ancora a eguagliare l'esperienza umana. Attraverso analisi degli errori approfondite e studi di casi, offriamo spunti utili per futuri progressi nella comprensione video di livello esperto e ricca di conoscenze per domini specializzati.
English
We introduce MMVU, a comprehensive expert-level, multi-discipline benchmark
for evaluating foundation models in video understanding. MMVU includes 3,000
expert-annotated questions spanning 27 subjects across four core disciplines:
Science, Healthcare, Humanities & Social Sciences, and Engineering. Compared to
prior benchmarks, MMVU features three key advancements. First, it challenges
models to apply domain-specific knowledge and perform expert-level reasoning to
analyze specialized-domain videos, moving beyond the basic visual perception
typically assessed in current video benchmarks. Second, each example is
annotated by human experts from scratch. We implement strict data quality
controls to ensure the high quality of the dataset. Finally, each example is
enriched with expert-annotated reasoning rationals and relevant domain
knowledge, facilitating in-depth analysis. We conduct an extensive evaluation
of 32 frontier multimodal foundation models on MMVU. The latest
System-2-capable models, o1 and Gemini 2.0 Flash Thinking, achieve the highest
performance among the tested models. However, they still fall short of matching
human expertise. Through in-depth error analyses and case studies, we offer
actionable insights for future advancements in expert-level,
knowledge-intensive video understanding for specialized domains.Summary
AI-Generated Summary