MMWorld: Auf dem Weg zur multidisziplinären und vielseitigen Bewertung von Weltmodellen in Videos
MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos
June 12, 2024
Autoren: Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang
cs.AI
Zusammenfassung
Multimodale Sprachsprachmodelle (MLLMs) zeigen die aufkommenden Fähigkeiten von "Weltmodellen" - der Interpretation und dem Denken über komplexe realweltliche Dynamiken. Zur Bewertung dieser Fähigkeiten postulieren wir, dass Videos das ideale Medium sind, da sie reichhaltige Darstellungen von realweltlichen Dynamiken und Kausalitäten verkörpern. Zu diesem Zweck stellen wir MMWorld vor, einen neuen Maßstab für multidisziplinäres, vielschichtiges multimodales Videoverständnis. MMWorld unterscheidet sich von früheren Videoverständnis-Maßstäben durch zwei einzigartige Vorteile: (1) multidisziplinär, umfasst verschiedene Disziplinen, die oft Fachkenntnisse für umfassendes Verständnis erfordern; (2) vielschichtiges Denken, einschließlich Erklärung, kontrafaktisches Denken, zukünftige Vorhersage usw. MMWorld besteht aus einem menschlich annotierten Datensatz zur Bewertung von MLLMs mit Fragen zu den gesamten Videos und einem synthetischen Datensatz zur Analyse von MLLMs innerhalb einer einzigen Modalität der Wahrnehmung. Insgesamt umfasst MMWorld 1.910 Videos aus sieben breiten Disziplinen und 69 Unterdisziplinen, komplett mit 6.627 Frage-Antwort-Paaren und zugehörigen Untertiteln. Die Bewertung umfasst 2 proprietäre und 10 Open-Source MLLMs, die auf MMWorld Schwierigkeiten haben (z. B. GPT-4V erzielt die beste Leistung mit nur 52,3\% Genauigkeit), was einen großen Verbesserungsspielraum zeigt. Weitere Ablationsstudien zeigen weitere interessante Ergebnisse wie unterschiedliche Fähigkeiten der Modelle im Vergleich zu Menschen. Wir hoffen, dass MMWorld als ein wesentlicher Schritt zur Bewertung von Weltmodellen in Videos dienen kann.
English
Multimodal Language Language Models (MLLMs) demonstrate the emerging
abilities of "world models" -- interpreting and reasoning about complex
real-world dynamics. To assess these abilities, we posit videos are the ideal
medium, as they encapsulate rich representations of real-world dynamics and
causalities. To this end, we introduce MMWorld, a new benchmark for
multi-discipline, multi-faceted multimodal video understanding. MMWorld
distinguishes itself from previous video understanding benchmarks with two
unique advantages: (1) multi-discipline, covering various disciplines that
often require domain expertise for comprehensive understanding; (2)
multi-faceted reasoning, including explanation, counterfactual thinking, future
prediction, etc. MMWorld consists of a human-annotated dataset to evaluate
MLLMs with questions about the whole videos and a synthetic dataset to analyze
MLLMs within a single modality of perception. Together, MMWorld encompasses
1,910 videos across seven broad disciplines and 69 subdisciplines, complete
with 6,627 question-answer pairs and associated captions. The evaluation
includes 2 proprietary and 10 open-source MLLMs, which struggle on MMWorld
(e.g., GPT-4V performs the best with only 52.3\% accuracy), showing large room
for improvement. Further ablation studies reveal other interesting findings
such as models' different skill sets from humans. We hope MMWorld can serve as
an essential step towards world model evaluation in videos.Summary
AI-Generated Summary