MMWorld: Auf dem Weg zur multidisziplinären und vielseitigen Bewertung von Weltmodellen in Videos

Zusammenfassung

Multimodale Sprachsprachmodelle (MLLMs) zeigen die aufkommenden Fähigkeiten von "Weltmodellen" - der Interpretation und dem Denken über komplexe realweltliche Dynamiken. Zur Bewertung dieser Fähigkeiten postulieren wir, dass Videos das ideale Medium sind, da sie reichhaltige Darstellungen von realweltlichen Dynamiken und Kausalitäten verkörpern. Zu diesem Zweck stellen wir MMWorld vor, einen neuen Maßstab für multidisziplinäres, vielschichtiges multimodales Videoverständnis. MMWorld unterscheidet sich von früheren Videoverständnis-Maßstäben durch zwei einzigartige Vorteile: (1) multidisziplinär, umfasst verschiedene Disziplinen, die oft Fachkenntnisse für umfassendes Verständnis erfordern; (2) vielschichtiges Denken, einschließlich Erklärung, kontrafaktisches Denken, zukünftige Vorhersage usw. MMWorld besteht aus einem menschlich annotierten Datensatz zur Bewertung von MLLMs mit Fragen zu den gesamten Videos und einem synthetischen Datensatz zur Analyse von MLLMs innerhalb einer einzigen Modalität der Wahrnehmung. Insgesamt umfasst MMWorld 1.910 Videos aus sieben breiten Disziplinen und 69 Unterdisziplinen, komplett mit 6.627 Frage-Antwort-Paaren und zugehörigen Untertiteln. Die Bewertung umfasst 2 proprietäre und 10 Open-Source MLLMs, die auf MMWorld Schwierigkeiten haben (z. B. GPT-4V erzielt die beste Leistung mit nur 52,3\% Genauigkeit), was einen großen Verbesserungsspielraum zeigt. Weitere Ablationsstudien zeigen weitere interessante Ergebnisse wie unterschiedliche Fähigkeiten der Modelle im Vergleich zu Menschen. Wir hoffen, dass MMWorld als ein wesentlicher Schritt zur Bewertung von Weltmodellen in Videos dienen kann.

English

Multimodal Language Language Models (MLLMs) demonstrate the emerging abilities of "world models" -- interpreting and reasoning about complex real-world dynamics. To assess these abilities, we posit videos are the ideal medium, as they encapsulate rich representations of real-world dynamics and causalities. To this end, we introduce MMWorld, a new benchmark for multi-discipline, multi-faceted multimodal video understanding. MMWorld distinguishes itself from previous video understanding benchmarks with two unique advantages: (1) multi-discipline, covering various disciplines that often require domain expertise for comprehensive understanding; (2) multi-faceted reasoning, including explanation, counterfactual thinking, future prediction, etc. MMWorld consists of a human-annotated dataset to evaluate MLLMs with questions about the whole videos and a synthetic dataset to analyze MLLMs within a single modality of perception. Together, MMWorld encompasses 1,910 videos across seven broad disciplines and 69 subdisciplines, complete with 6,627 question-answer pairs and associated captions. The evaluation includes 2 proprietary and 10 open-source MLLMs, which struggle on MMWorld (e.g., GPT-4V performs the best with only 52.3\% accuracy), showing large room for improvement. Further ablation studies reveal other interesting findings such as models' different skill sets from humans. We hope MMWorld can serve as an essential step towards world model evaluation in videos.

MMWorld: Auf dem Weg zur multidisziplinären und vielseitigen Bewertung von Weltmodellen in Videos

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

Zusammenfassung

Summary

Support

Support