ChatPaper.aiChatPaper

MMVU: Misurare la Comprensione Video a Livello di Esperto in Diverse Discipline

MMVU: Measuring Expert-Level Multi-Discipline Video Understanding

January 21, 2025
Autori: Yilun Zhao, Lujing Xie, Haowei Zhang, Guo Gan, Yitao Long, Zhiyuan Hu, Tongyan Hu, Weiyuan Chen, Chuhan Li, Junyang Song, Zhijian Xu, Chengye Wang, Weifeng Pan, Ziyao Shangguan, Xiangru Tang, Zhenwen Liang, Yixin Liu, Chen Zhao, Arman Cohan
cs.AI

Abstract

Introduciamo MMVU, un ampio benchmark di livello esperto multidisciplinare per valutare i modelli di base nell'ambito della comprensione video. MMVU include 3.000 domande annotate da esperti che coprono 27 materie in quattro discipline principali: Scienze, Sanità, Discipline Umanistiche e Scienze Sociali, e Ingegneria. Rispetto ai benchmark precedenti, MMVU presenta tre principali innovazioni. In primo luogo, sfida i modelli ad applicare conoscenze specifiche di dominio e a eseguire ragionamenti di livello esperto per analizzare video di dominio specializzato, andando oltre la percezione visiva di base tipicamente valutata nei benchmark video attuali. In secondo luogo, ogni esempio è annotato da esperti umani da zero. Implementiamo rigorosi controlli sulla qualità dei dati per garantire l'alta qualità del dataset. Infine, ogni esempio è arricchito con ragionamenti annotati da esperti e conoscenze di dominio rilevanti, facilitando l'analisi approfondita. Conduciamo una valutazione approfondita di 32 modelli di base multimodali di frontiera su MMVU. I modelli più recenti capaci di System-2, o1 e Gemini 2.0 Flash Thinking, raggiungono le prestazioni più elevate tra i modelli testati. Tuttavia, non riescono ancora a eguagliare l'esperienza umana. Attraverso analisi degli errori approfondite e studi di casi, offriamo spunti utili per futuri progressi nella comprensione video di livello esperto e ricca di conoscenze per domini specializzati.
English
We introduce MMVU, a comprehensive expert-level, multi-discipline benchmark for evaluating foundation models in video understanding. MMVU includes 3,000 expert-annotated questions spanning 27 subjects across four core disciplines: Science, Healthcare, Humanities & Social Sciences, and Engineering. Compared to prior benchmarks, MMVU features three key advancements. First, it challenges models to apply domain-specific knowledge and perform expert-level reasoning to analyze specialized-domain videos, moving beyond the basic visual perception typically assessed in current video benchmarks. Second, each example is annotated by human experts from scratch. We implement strict data quality controls to ensure the high quality of the dataset. Finally, each example is enriched with expert-annotated reasoning rationals and relevant domain knowledge, facilitating in-depth analysis. We conduct an extensive evaluation of 32 frontier multimodal foundation models on MMVU. The latest System-2-capable models, o1 and Gemini 2.0 Flash Thinking, achieve the highest performance among the tested models. However, they still fall short of matching human expertise. Through in-depth error analyses and case studies, we offer actionable insights for future advancements in expert-level, knowledge-intensive video understanding for specialized domains.

Summary

AI-Generated Summary

PDF852January 22, 2025