MMVU: Medindo a Compreensão de Vídeo em Múltiplas Disciplinas em Nível de Especialista
MMVU: Measuring Expert-Level Multi-Discipline Video Understanding
January 21, 2025
Autores: Yilun Zhao, Lujing Xie, Haowei Zhang, Guo Gan, Yitao Long, Zhiyuan Hu, Tongyan Hu, Weiyuan Chen, Chuhan Li, Junyang Song, Zhijian Xu, Chengye Wang, Weifeng Pan, Ziyao Shangguan, Xiangru Tang, Zhenwen Liang, Yixin Liu, Chen Zhao, Arman Cohan
cs.AI
Resumo
Apresentamos o MMVU, um benchmark abrangente de nível especializado e multidisciplinar para avaliar modelos fundamentais em compreensão de vídeo. O MMVU inclui 3.000 perguntas anotadas por especialistas abrangendo 27 disciplinas em quatro áreas principais: Ciência, Saúde, Humanidades e Ciências Sociais, e Engenharia. Em comparação com benchmarks anteriores, o MMVU apresenta três avanços-chave. Primeiramente, desafia os modelos a aplicar conhecimento específico de domínio e realizar raciocínio de nível especializado para analisar vídeos de domínios especializados, indo além da percepção visual básica normalmente avaliada nos benchmarks de vídeo atuais. Em segundo lugar, cada exemplo é anotado por especialistas humanos do zero. Implementamos rigorosos controles de qualidade de dados para garantir a alta qualidade do conjunto de dados. Por fim, cada exemplo é enriquecido com justificativas de raciocínio anotadas por especialistas e conhecimento de domínio relevante, facilitando análises aprofundadas. Realizamos uma extensa avaliação de 32 modelos fundamentais multimodais de fronteira no MMVU. Os modelos mais recentes capazes de Sistema-2, o1 e Gemini 2.0 Flash Thinking, alcançam o melhor desempenho entre os modelos testados. No entanto, ainda não conseguem igualar a expertise humana. Através de análises de erros aprofundadas e estudos de caso, oferecemos insights acionáveis para futuros avanços em compreensão de vídeo de nível especializado e intensivo em conhecimento para domínios especializados.
English
We introduce MMVU, a comprehensive expert-level, multi-discipline benchmark
for evaluating foundation models in video understanding. MMVU includes 3,000
expert-annotated questions spanning 27 subjects across four core disciplines:
Science, Healthcare, Humanities & Social Sciences, and Engineering. Compared to
prior benchmarks, MMVU features three key advancements. First, it challenges
models to apply domain-specific knowledge and perform expert-level reasoning to
analyze specialized-domain videos, moving beyond the basic visual perception
typically assessed in current video benchmarks. Second, each example is
annotated by human experts from scratch. We implement strict data quality
controls to ensure the high quality of the dataset. Finally, each example is
enriched with expert-annotated reasoning rationals and relevant domain
knowledge, facilitating in-depth analysis. We conduct an extensive evaluation
of 32 frontier multimodal foundation models on MMVU. The latest
System-2-capable models, o1 and Gemini 2.0 Flash Thinking, achieve the highest
performance among the tested models. However, they still fall short of matching
human expertise. Through in-depth error analyses and case studies, we offer
actionable insights for future advancements in expert-level,
knowledge-intensive video understanding for specialized domains.Summary
AI-Generated Summary