MMWorld: К оценке многопрофильной многогранной модели мира в видео
MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos
June 12, 2024
Авторы: Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang
cs.AI
Аннотация
Многомодальные языковые модели (MLLM) демонстрируют развивающиеся способности "мировых моделей" - интерпретации и рассуждения о сложной динамике реального мира. Для оценки этих способностей мы предполагаем, что видео являются идеальным средством, поскольку они содержат богатые представления о динамике и причинно-следственных связях реального мира. В этом контексте мы представляем MMWorld, новый бенчмарк для мультидисциплинарного, многофасетного понимания многомодальных видео. MMWorld отличается от предыдущих бенчмарков по пониманию видео двумя уникальными преимуществами: (1) мультидисциплинарностью, охватывающей различные области, часто требующие экспертизы в области для полного понимания; (2) многофасетным рассуждением, включая объяснение, контрфактическое мышление, предсказание будущего и т. д. MMWorld состоит из человеком аннотированного набора данных для оценки MLLM с вопросами о целых видео и синтетического набора данных для анализа MLLM в пределах одной модальности восприятия. Вместе MMWorld охватывает 1 910 видео по семи широким дисциплинам и 69 поддисциплинам, включая 6 627 пар вопрос-ответ и соответствующие подписи. Оценка включает 2 собственные и 10 открытых MLLM, которые испытывают трудности на MMWorld (например, GPT-4V показывает лучший результат только с точностью 52,3%), что показывает большой потенциал для улучшения. Дополнительные исследования абляции раскрывают другие интересные результаты, такие как различные навыки моделей по сравнению с людьми. Мы надеемся, что MMWorld может служить важным шагом к оценке мировых моделей в видео.
English
Multimodal Language Language Models (MLLMs) demonstrate the emerging
abilities of "world models" -- interpreting and reasoning about complex
real-world dynamics. To assess these abilities, we posit videos are the ideal
medium, as they encapsulate rich representations of real-world dynamics and
causalities. To this end, we introduce MMWorld, a new benchmark for
multi-discipline, multi-faceted multimodal video understanding. MMWorld
distinguishes itself from previous video understanding benchmarks with two
unique advantages: (1) multi-discipline, covering various disciplines that
often require domain expertise for comprehensive understanding; (2)
multi-faceted reasoning, including explanation, counterfactual thinking, future
prediction, etc. MMWorld consists of a human-annotated dataset to evaluate
MLLMs with questions about the whole videos and a synthetic dataset to analyze
MLLMs within a single modality of perception. Together, MMWorld encompasses
1,910 videos across seven broad disciplines and 69 subdisciplines, complete
with 6,627 question-answer pairs and associated captions. The evaluation
includes 2 proprietary and 10 open-source MLLMs, which struggle on MMWorld
(e.g., GPT-4V performs the best with only 52.3\% accuracy), showing large room
for improvement. Further ablation studies reveal other interesting findings
such as models' different skill sets from humans. We hope MMWorld can serve as
an essential step towards world model evaluation in videos.Summary
AI-Generated Summary