MMWorld: Hacia una Evaluación de Modelos del Mundo Multidisciplinaria y Multifacética en Videos
MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos
June 12, 2024
Autores: Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang
cs.AI
Resumen
Los Modelos de Lenguaje Multimodal (MLLMs, por sus siglas en inglés) demuestran las capacidades emergentes de los "modelos del mundo": interpretar y razonar sobre dinámicas complejas del mundo real. Para evaluar estas habilidades, proponemos que los videos son el medio ideal, ya que encapsulan representaciones ricas de dinámicas y causalidades del mundo real. Con este fin, presentamos MMWorld, un nuevo punto de referencia para la comprensión multimodal de videos multidisciplinarios y multifacéticos. MMWorld se distingue de los puntos de referencia anteriores de comprensión de videos con dos ventajas únicas: (1) multidisciplinariedad, abarcando diversas disciplinas que a menudo requieren experiencia en el dominio para una comprensión integral; (2) razonamiento multifacético, incluyendo explicación, pensamiento contrafáctico, predicción futura, etc. MMWorld consta de un conjunto de datos anotado por humanos para evaluar MLLMs con preguntas sobre videos completos y un conjunto de datos sintético para analizar MLLMs dentro de una sola modalidad de percepción. En conjunto, MMWorld abarca 1,910 videos en siete disciplinas amplias y 69 subdisciplinas, completos con 6,627 pares de preguntas y respuestas y subtítulos asociados. La evaluación incluye 2 MLLMs propietarios y 10 de código abierto, que tienen dificultades en MMWorld (por ejemplo, GPT-4V tiene el mejor desempeño con solo un 52.3% de precisión), mostrando un amplio margen de mejora. Estudios de ablación adicionales revelan otros hallazgos interesantes, como los diferentes conjuntos de habilidades de los modelos en comparación con los humanos. Esperamos que MMWorld pueda servir como un paso esencial hacia la evaluación de modelos del mundo en videos.
English
Multimodal Language Language Models (MLLMs) demonstrate the emerging
abilities of "world models" -- interpreting and reasoning about complex
real-world dynamics. To assess these abilities, we posit videos are the ideal
medium, as they encapsulate rich representations of real-world dynamics and
causalities. To this end, we introduce MMWorld, a new benchmark for
multi-discipline, multi-faceted multimodal video understanding. MMWorld
distinguishes itself from previous video understanding benchmarks with two
unique advantages: (1) multi-discipline, covering various disciplines that
often require domain expertise for comprehensive understanding; (2)
multi-faceted reasoning, including explanation, counterfactual thinking, future
prediction, etc. MMWorld consists of a human-annotated dataset to evaluate
MLLMs with questions about the whole videos and a synthetic dataset to analyze
MLLMs within a single modality of perception. Together, MMWorld encompasses
1,910 videos across seven broad disciplines and 69 subdisciplines, complete
with 6,627 question-answer pairs and associated captions. The evaluation
includes 2 proprietary and 10 open-source MLLMs, which struggle on MMWorld
(e.g., GPT-4V performs the best with only 52.3\% accuracy), showing large room
for improvement. Further ablation studies reveal other interesting findings
such as models' different skill sets from humans. We hope MMWorld can serve as
an essential step towards world model evaluation in videos.Summary
AI-Generated Summary