ChatPaper.aiChatPaper

Vídeo-MMMU: Avaliando a Aquisição de Conhecimento a partir de Vídeos Profissionais Multidisciplinares.

Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos

January 23, 2025
Autores: Kairui Hu, Penghao Wu, Fanyi Pu, Wang Xiao, Yuanhan Zhang, Xiang Yue, Bo Li, Ziwei Liu
cs.AI

Resumo

Os humanos adquirem conhecimento por meio de três estágios cognitivos: perceber informações, compreender conhecimento e adaptar conhecimento para resolver problemas novos. Vídeos servem como um meio eficaz para esse processo de aprendizado, facilitando a progressão por esses estágios cognitivos. No entanto, os benchmarks de vídeo existentes falham em avaliar sistematicamente as capacidades de aquisição de conhecimento em Modelos Multimodais Grandes (LMMs). Para abordar essa lacuna, apresentamos o Video-MMMU, um benchmark multi-modal, multidisciplinar projetado para avaliar a capacidade dos LMMs de adquirir e utilizar conhecimento de vídeos. O Video-MMMU apresenta uma coleção selecionada de 300 vídeos de nível especializado e 900 perguntas humanamente anotadas em seis disciplinas, avaliando a aquisição de conhecimento por meio de pares de perguntas e respostas alinhadas com os estágios: Percepção, Compreensão e Adaptação. Uma métrica proposta de ganho de conhecimento, Δconhecimento, quantifica a melhoria no desempenho após a visualização do vídeo. A avaliação dos LMMs revela uma queda acentuada no desempenho à medida que as demandas cognitivas aumentam e destaca uma lacuna significativa entre a aquisição de conhecimento humana e do modelo, ressaltando a necessidade de métodos para aprimorar a capacidade dos LMMs de aprender e se adaptar a partir de vídeos.
English
Humans acquire knowledge through three cognitive stages: perceiving information, comprehending knowledge, and adapting knowledge to solve novel problems. Videos serve as an effective medium for this learning process, facilitating a progression through these cognitive stages. However, existing video benchmarks fail to systematically evaluate the knowledge acquisition capabilities in Large Multimodal Models (LMMs). To address this gap, we introduce Video-MMMU, a multi-modal, multi-disciplinary benchmark designed to assess LMMs' ability to acquire and utilize knowledge from videos. Video-MMMU features a curated collection of 300 expert-level videos and 900 human-annotated questions across six disciplines, evaluating knowledge acquisition through stage-aligned question-answer pairs: Perception, Comprehension, and Adaptation. A proposed knowledge gain metric, {\Delta}knowledge, quantifies improvement in performance after video viewing. Evaluation of LMMs reveals a steep decline in performance as cognitive demands increase and highlights a significant gap between human and model knowledge acquisition, underscoring the need for methods to enhance LMMs' capability to learn and adapt from videos.

Summary

AI-Generated Summary

PDF262January 24, 2025