ChatPaper.aiChatPaper

비디오-MMMU: 다학제 전문가 비디오로부터의 지식 습득 평가

Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos

January 23, 2025
저자: Kairui Hu, Penghao Wu, Fanyi Pu, Wang Xiao, Yuanhan Zhang, Xiang Yue, Bo Li, Ziwei Liu
cs.AI

초록

인간은 세 가지 인지 단계를 통해 지식을 습득합니다: 정보를 인지하는 단계, 지식을 이해하는 단계, 그리고 새로운 문제를 해결하기 위해 지식을 적응하는 단계입니다. 비디오는 이러한 학습 과정에서 효과적인 매체로 작용하여 이러한 인지 단계를 거치는 것을 용이하게 합니다. 그러나 기존의 비디오 벤치마크는 대규모 다중모달 모델(LMMs)의 지식 습득 능력을 체계적으로 평가하지 못합니다. 이러한 공백을 해결하기 위해 우리는 비디오-MMMU를 소개합니다. 이는 비디오에서 지식을 습득하고 활용하는 LMMs의 능력을 평가하기 위해 설계된 다중모달, 다학제 벤치마크입니다. 비디오-MMMU는 여섯 학문 분야를 대상으로 300개의 전문 수준 비디오와 900개의 인간 주석이 달린 질문으로 구성된 선별된 컬렉션을 특징으로 하며, 지식 습득을 인지, 이해 및 적응 단계에 따른 질문-답변 쌍을 통해 평가합니다. 제안된 지식 획득 메트릭인 Δ지식은 비디오 시청 후 성능 향상을 양적으로 측정합니다. LMMs의 평가 결과는 인지적 요구가 증가함에 따라 성능이 급격히 저하되고, 인간과 모델 간 지식 습득 간의 상당한 격차를 강조하여 비디오로부터 학습하고 적응하는 LMMs의 능력을 향상시키는 방법이 필요함을 강조합니다.
English
Humans acquire knowledge through three cognitive stages: perceiving information, comprehending knowledge, and adapting knowledge to solve novel problems. Videos serve as an effective medium for this learning process, facilitating a progression through these cognitive stages. However, existing video benchmarks fail to systematically evaluate the knowledge acquisition capabilities in Large Multimodal Models (LMMs). To address this gap, we introduce Video-MMMU, a multi-modal, multi-disciplinary benchmark designed to assess LMMs' ability to acquire and utilize knowledge from videos. Video-MMMU features a curated collection of 300 expert-level videos and 900 human-annotated questions across six disciplines, evaluating knowledge acquisition through stage-aligned question-answer pairs: Perception, Comprehension, and Adaptation. A proposed knowledge gain metric, {\Delta}knowledge, quantifies improvement in performance after video viewing. Evaluation of LMMs reveals a steep decline in performance as cognitive demands increase and highlights a significant gap between human and model knowledge acquisition, underscoring the need for methods to enhance LMMs' capability to learn and adapt from videos.

Summary

AI-Generated Summary

PDF262January 24, 2025