Vidéo-MMMU : Évaluation de l'Acquisition de Connaissances à partir de Vidéos Professionnelles Multidisciplinaires
Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos
January 23, 2025
Auteurs: Kairui Hu, Penghao Wu, Fanyi Pu, Wang Xiao, Yuanhan Zhang, Xiang Yue, Bo Li, Ziwei Liu
cs.AI
Résumé
Les humains acquièrent des connaissances à travers trois étapes cognitives : la perception de l'information, la compréhension des connaissances et l'adaptation des connaissances pour résoudre des problèmes nouveaux. Les vidéos servent de moyen efficace pour ce processus d'apprentissage, facilitant une progression à travers ces étapes cognitives. Cependant, les références vidéo existantes échouent à évaluer systématiquement les capacités d'acquisition de connaissances des Grands Modèles Multimodaux (LMMs). Pour combler cette lacune, nous introduisons Video-MMMU, un banc d'essai multi-modal, multi-disciplinaire conçu pour évaluer la capacité des LMMs à acquérir et utiliser des connaissances à partir de vidéos. Video-MMMU propose une collection sélectionnée de 300 vidéos de niveau expert et 900 questions annotées par des humains dans six disciplines, évaluant l'acquisition de connaissances à travers des paires question-réponse alignées sur les étapes : Perception, Compréhension et Adaptation. Une métrique de gain de connaissance proposée, Δconnaissance, quantifie l'amélioration des performances après la visualisation de la vidéo. L'évaluation des LMMs révèle une baisse abrupte des performances à mesure que les exigences cognitives augmentent et souligne un écart significatif entre l'acquisition de connaissances humaines et modèles, mettant en évidence le besoin de méthodes pour améliorer la capacité des LMMs à apprendre et s'adapter à partir de vidéos.
English
Humans acquire knowledge through three cognitive stages: perceiving
information, comprehending knowledge, and adapting knowledge to solve novel
problems. Videos serve as an effective medium for this learning process,
facilitating a progression through these cognitive stages. However, existing
video benchmarks fail to systematically evaluate the knowledge acquisition
capabilities in Large Multimodal Models (LMMs). To address this gap, we
introduce Video-MMMU, a multi-modal, multi-disciplinary benchmark designed to
assess LMMs' ability to acquire and utilize knowledge from videos. Video-MMMU
features a curated collection of 300 expert-level videos and 900
human-annotated questions across six disciplines, evaluating knowledge
acquisition through stage-aligned question-answer pairs: Perception,
Comprehension, and Adaptation. A proposed knowledge gain metric,
{\Delta}knowledge, quantifies improvement in performance after video viewing.
Evaluation of LMMs reveals a steep decline in performance as cognitive demands
increase and highlights a significant gap between human and model knowledge
acquisition, underscoring the need for methods to enhance LMMs' capability to
learn and adapt from videos.Summary
AI-Generated Summary