MMWorld: Verso una Valutazione Multi-disciplinare e Multi-aspetto dei Modelli del Mondo nei Video
MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos
June 12, 2024
Autori: Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang
cs.AI
Abstract
I Modelli Linguistici Multimodali (MLLMs) dimostrano le capacità emergenti dei "modelli del mondo" — interpretare e ragionare sulle dinamiche complesse del mondo reale. Per valutare queste capacità, proponiamo i video come mezzo ideale, poiché racchiudono rappresentazioni ricche delle dinamiche e delle causalità del mondo reale. A tal fine, introduciamo MMWorld, un nuovo benchmark per la comprensione multimodale e multidisciplinare dei video. MMWorld si distingue dai precedenti benchmark di comprensione video con due vantaggi unici: (1) multidisciplinarietà, coprendo varie discipline che spesso richiedono competenze specifiche per una comprensione completa; (2) ragionamento multifaccettato, inclusa spiegazione, pensiero controfattuale, previsione futura, ecc. MMWorld consiste in un dataset annotato manualmente per valutare gli MLLMs con domande sull'intero video e un dataset sintetico per analizzare gli MLLMs all'interno di una singola modalità percettiva. Insieme, MMWorld comprende 1.910 video in sette ampie discipline e 69 sottodiscipline, completi di 6.627 coppie domanda-risposta e didascalie associate. La valutazione include 2 MLLMs proprietari e 10 open-source, che faticano su MMWorld (ad esempio, GPT-4V ottiene il miglior risultato con solo il 52,3% di accuratezza), mostrando un ampio margine di miglioramento. Ulteriori studi di ablazione rivelano altri risultati interessanti, come i diversi set di competenze dei modelli rispetto agli esseri umani. Speriamo che MMWorld possa rappresentare un passo essenziale verso la valutazione dei modelli del mondo nei video.
English
Multimodal Language Language Models (MLLMs) demonstrate the emerging
abilities of "world models" -- interpreting and reasoning about complex
real-world dynamics. To assess these abilities, we posit videos are the ideal
medium, as they encapsulate rich representations of real-world dynamics and
causalities. To this end, we introduce MMWorld, a new benchmark for
multi-discipline, multi-faceted multimodal video understanding. MMWorld
distinguishes itself from previous video understanding benchmarks with two
unique advantages: (1) multi-discipline, covering various disciplines that
often require domain expertise for comprehensive understanding; (2)
multi-faceted reasoning, including explanation, counterfactual thinking, future
prediction, etc. MMWorld consists of a human-annotated dataset to evaluate
MLLMs with questions about the whole videos and a synthetic dataset to analyze
MLLMs within a single modality of perception. Together, MMWorld encompasses
1,910 videos across seven broad disciplines and 69 subdisciplines, complete
with 6,627 question-answer pairs and associated captions. The evaluation
includes 2 proprietary and 10 open-source MLLMs, which struggle on MMWorld
(e.g., GPT-4V performs the best with only 52.3\% accuracy), showing large room
for improvement. Further ablation studies reveal other interesting findings
such as models' different skill sets from humans. We hope MMWorld can serve as
an essential step towards world model evaluation in videos.