Видео-МММУ: Оценка усвоения знаний из профессиональных видеороликов многих дисциплин
Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos
January 23, 2025
Авторы: Kairui Hu, Penghao Wu, Fanyi Pu, Wang Xiao, Yuanhan Zhang, Xiang Yue, Bo Li, Ziwei Liu
cs.AI
Аннотация
Люди приобретают знания через три когнитивных этапа: восприятие информации, понимание знаний и применение знаний для решения новых проблем. Видео служат эффективным средством для этого процесса обучения, облегчая продвижение через эти когнитивные этапы. Однако существующие видео-бенчмарки не оценивают систематически возможности усвоения знаний в крупных мультимодальных моделях (LMMs). Для заполнения этой пробела мы представляем Video-MMMU, мультимодальный, мультидисциплинарный бенчмарк, разработанный для оценки способности LMMs усваивать и использовать знания из видео. Video-MMMU включает подобранную коллекцию из 300 видео на экспертном уровне и 900 вопросов, аннотированных людьми, по шести дисциплинам, оценивающих усвоение знаний через пары вопрос-ответ, выровненные по этапам: Восприятие, Понимание и Применение. Предложенная метрика прироста знаний, {\Delta}знания, количественно измеряет улучшение производительности после просмотра видео. Оценка LMMs показывает крутое снижение производительности при увеличении когнитивной нагрузки и подчеркивает значительный разрыв между усвоением знаний человеком и моделью, подчеркивая необходимость методов для улучшения способности LMMs к обучению и адаптации на основе видео.
English
Humans acquire knowledge through three cognitive stages: perceiving
information, comprehending knowledge, and adapting knowledge to solve novel
problems. Videos serve as an effective medium for this learning process,
facilitating a progression through these cognitive stages. However, existing
video benchmarks fail to systematically evaluate the knowledge acquisition
capabilities in Large Multimodal Models (LMMs). To address this gap, we
introduce Video-MMMU, a multi-modal, multi-disciplinary benchmark designed to
assess LMMs' ability to acquire and utilize knowledge from videos. Video-MMMU
features a curated collection of 300 expert-level videos and 900
human-annotated questions across six disciplines, evaluating knowledge
acquisition through stage-aligned question-answer pairs: Perception,
Comprehension, and Adaptation. A proposed knowledge gain metric,
{\Delta}knowledge, quantifies improvement in performance after video viewing.
Evaluation of LMMs reveals a steep decline in performance as cognitive demands
increase and highlights a significant gap between human and model knowledge
acquisition, underscoring the need for methods to enhance LMMs' capability to
learn and adapt from videos.Summary
AI-Generated Summary