ChatPaper.aiChatPaper

Video-MMMU: Evaluación de la Adquisición de Conocimiento a partir de Videos Profesionales Multidisciplinarios

Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos

January 23, 2025
Autores: Kairui Hu, Penghao Wu, Fanyi Pu, Wang Xiao, Yuanhan Zhang, Xiang Yue, Bo Li, Ziwei Liu
cs.AI

Resumen

Los humanos adquieren conocimiento a través de tres etapas cognitivas: percibir información, comprender conocimiento y adaptar conocimiento para resolver problemas novedosos. Los videos sirven como un medio efectivo para este proceso de aprendizaje, facilitando una progresión a través de estas etapas cognitivas. Sin embargo, los benchmarks de videos existentes no logran evaluar sistemáticamente las capacidades de adquisición de conocimiento en Modelos Multimodales Grandes (LMMs). Para abordar esta brecha, presentamos Video-MMMU, un benchmark multimodal y multidisciplinario diseñado para evaluar la capacidad de los LMMs para adquirir y utilizar conocimiento de videos. Video-MMMU cuenta con una colección seleccionada de 300 videos de nivel experto y 900 preguntas anotadas por humanos en seis disciplinas, evaluando la adquisición de conocimiento a través de pares de preguntas-respuestas alineadas con las etapas: Percepción, Comprensión y Adaptación. Se propone una métrica de ganancia de conocimiento, Δconocimiento, que cuantifica la mejora en el rendimiento después de ver el video. La evaluación de los LMMs revela una disminución pronunciada en el rendimiento a medida que aumentan las demandas cognitivas y destaca una brecha significativa entre la adquisición de conocimiento humana y de modelos, subrayando la necesidad de métodos para mejorar la capacidad de los LMMs para aprender y adaptarse a partir de videos.
English
Humans acquire knowledge through three cognitive stages: perceiving information, comprehending knowledge, and adapting knowledge to solve novel problems. Videos serve as an effective medium for this learning process, facilitating a progression through these cognitive stages. However, existing video benchmarks fail to systematically evaluate the knowledge acquisition capabilities in Large Multimodal Models (LMMs). To address this gap, we introduce Video-MMMU, a multi-modal, multi-disciplinary benchmark designed to assess LMMs' ability to acquire and utilize knowledge from videos. Video-MMMU features a curated collection of 300 expert-level videos and 900 human-annotated questions across six disciplines, evaluating knowledge acquisition through stage-aligned question-answer pairs: Perception, Comprehension, and Adaptation. A proposed knowledge gain metric, {\Delta}knowledge, quantifies improvement in performance after video viewing. Evaluation of LMMs reveals a steep decline in performance as cognitive demands increase and highlights a significant gap between human and model knowledge acquisition, underscoring the need for methods to enhance LMMs' capability to learn and adapt from videos.

Summary

AI-Generated Summary

PDF262January 24, 2025