ChatPaper.aiChatPaper

MMWorld: Hacia una Evaluación de Modelos del Mundo Multidisciplinaria y Multifacética en Videos

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

June 12, 2024
Autores: Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang
cs.AI

Resumen

Los Modelos de Lenguaje Multimodal (MLLMs, por sus siglas en inglés) demuestran las capacidades emergentes de los "modelos del mundo": interpretar y razonar sobre dinámicas complejas del mundo real. Para evaluar estas habilidades, proponemos que los videos son el medio ideal, ya que encapsulan representaciones ricas de dinámicas y causalidades del mundo real. Con este fin, presentamos MMWorld, un nuevo punto de referencia para la comprensión multimodal de videos multidisciplinarios y multifacéticos. MMWorld se distingue de los puntos de referencia anteriores de comprensión de videos con dos ventajas únicas: (1) multidisciplinariedad, abarcando diversas disciplinas que a menudo requieren experiencia en el dominio para una comprensión integral; (2) razonamiento multifacético, incluyendo explicación, pensamiento contrafáctico, predicción futura, etc. MMWorld consta de un conjunto de datos anotado por humanos para evaluar MLLMs con preguntas sobre videos completos y un conjunto de datos sintético para analizar MLLMs dentro de una sola modalidad de percepción. En conjunto, MMWorld abarca 1,910 videos en siete disciplinas amplias y 69 subdisciplinas, completos con 6,627 pares de preguntas y respuestas y subtítulos asociados. La evaluación incluye 2 MLLMs propietarios y 10 de código abierto, que tienen dificultades en MMWorld (por ejemplo, GPT-4V tiene el mejor desempeño con solo un 52.3% de precisión), mostrando un amplio margen de mejora. Estudios de ablación adicionales revelan otros hallazgos interesantes, como los diferentes conjuntos de habilidades de los modelos en comparación con los humanos. Esperamos que MMWorld pueda servir como un paso esencial hacia la evaluación de modelos del mundo en videos.
English
Multimodal Language Language Models (MLLMs) demonstrate the emerging abilities of "world models" -- interpreting and reasoning about complex real-world dynamics. To assess these abilities, we posit videos are the ideal medium, as they encapsulate rich representations of real-world dynamics and causalities. To this end, we introduce MMWorld, a new benchmark for multi-discipline, multi-faceted multimodal video understanding. MMWorld distinguishes itself from previous video understanding benchmarks with two unique advantages: (1) multi-discipline, covering various disciplines that often require domain expertise for comprehensive understanding; (2) multi-faceted reasoning, including explanation, counterfactual thinking, future prediction, etc. MMWorld consists of a human-annotated dataset to evaluate MLLMs with questions about the whole videos and a synthetic dataset to analyze MLLMs within a single modality of perception. Together, MMWorld encompasses 1,910 videos across seven broad disciplines and 69 subdisciplines, complete with 6,627 question-answer pairs and associated captions. The evaluation includes 2 proprietary and 10 open-source MLLMs, which struggle on MMWorld (e.g., GPT-4V performs the best with only 52.3\% accuracy), showing large room for improvement. Further ablation studies reveal other interesting findings such as models' different skill sets from humans. We hope MMWorld can serve as an essential step towards world model evaluation in videos.

Summary

AI-Generated Summary

PDF290December 8, 2024