MMWorld : Vers une évaluation multi-disciplinaire et multi-facettes des modèles du monde dans les vidéos
MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos
June 12, 2024
Auteurs: Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang
cs.AI
Résumé
Les modèles de langage multimodaux (MLLMs) démontrent les capacités émergentes des "modèles du monde" — interprétant et raisonnant sur les dynamiques complexes du monde réel. Pour évaluer ces capacités, nous considérons que les vidéos constituent le support idéal, car elles encapsulent des représentations riches des dynamiques et causalités du monde réel. Dans cette optique, nous introduisons MMWorld, un nouveau benchmark pour la compréhension multimodale et multifacette de vidéos multidisciplinaires. MMWorld se distingue des précédents benchmarks de compréhension vidéo par deux avantages uniques : (1) multidisciplinarité, couvrant diverses disciplines qui nécessitent souvent une expertise spécifique pour une compréhension approfondie ; (2) raisonnement multifacette, incluant l'explication, la pensée contrefactuelle, la prédiction future, etc. MMWorld comprend un ensemble de données annotées manuellement pour évaluer les MLLMs avec des questions portant sur des vidéos entières, ainsi qu'un ensemble de données synthétiques pour analyser les MLLMs dans une seule modalité de perception. Ensemble, MMWorld englobe 1 910 vidéos couvrant sept grandes disciplines et 69 sous-disciplines, accompagnées de 6 627 paires question-réponse et de légendes associées. L'évaluation inclut 2 MLLMs propriétaires et 10 open-source, qui peinent sur MMWorld (par exemple, GPT-4V obtient la meilleure performance avec seulement 52,3 % de précision), montrant une marge d'amélioration significative. Des études d'ablation supplémentaires révèlent d'autres résultats intéressants, tels que les différences de compétences entre les modèles et les humains. Nous espérons que MMWorld pourra servir d'étape essentielle vers l'évaluation des modèles du monde dans les vidéos.
English
Multimodal Language Language Models (MLLMs) demonstrate the emerging
abilities of "world models" -- interpreting and reasoning about complex
real-world dynamics. To assess these abilities, we posit videos are the ideal
medium, as they encapsulate rich representations of real-world dynamics and
causalities. To this end, we introduce MMWorld, a new benchmark for
multi-discipline, multi-faceted multimodal video understanding. MMWorld
distinguishes itself from previous video understanding benchmarks with two
unique advantages: (1) multi-discipline, covering various disciplines that
often require domain expertise for comprehensive understanding; (2)
multi-faceted reasoning, including explanation, counterfactual thinking, future
prediction, etc. MMWorld consists of a human-annotated dataset to evaluate
MLLMs with questions about the whole videos and a synthetic dataset to analyze
MLLMs within a single modality of perception. Together, MMWorld encompasses
1,910 videos across seven broad disciplines and 69 subdisciplines, complete
with 6,627 question-answer pairs and associated captions. The evaluation
includes 2 proprietary and 10 open-source MLLMs, which struggle on MMWorld
(e.g., GPT-4V performs the best with only 52.3\% accuracy), showing large room
for improvement. Further ablation studies reveal other interesting findings
such as models' different skill sets from humans. We hope MMWorld can serve as
an essential step towards world model evaluation in videos.Summary
AI-Generated Summary