MMWorld: Rumo à Avaliação de Modelos de Mundo Multidisciplinares e Multifacetados em Vídeos
MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos
June 12, 2024
Autores: Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang
cs.AI
Resumo
Modelos de Linguagem Multimodal (MLLMs) demonstram as capacidades emergentes de "modelos de mundo" — interpretando e raciocinando sobre dinâmicas complexas do mundo real. Para avaliar essas habilidades, propomos que os vídeos são o meio ideal, pois encapsulam representações ricas das dinâmicas e causalidades do mundo real. Para isso, introduzimos o MMWorld, um novo benchmark para compreensão multimodal de vídeos em múltiplas disciplinas e facetas. O MMWorld se distingue dos benchmarks anteriores de compreensão de vídeos com duas vantagens únicas: (1) multidisciplinaridade, abrangendo diversas disciplinas que frequentemente exigem expertise de domínio para uma compreensão abrangente; (2) raciocínio multifacetado, incluindo explicação, pensamento contrafactual, previsão futura, etc. O MMWorld consiste em um conjunto de dados anotado por humanos para avaliar MLLMs com perguntas sobre os vídeos inteiros e um conjunto de dados sintético para analisar MLLMs dentro de uma única modalidade de percepção. Juntos, o MMWorld abrange 1.910 vídeos em sete grandes disciplinas e 69 subdisciplinas, completos com 6.627 pares de perguntas e respostas e legendas associadas. A avaliação inclui 2 MLLMs proprietários e 10 de código aberto, que enfrentam dificuldades no MMWorld (por exemplo, o GPT-4V tem o melhor desempenho com apenas 52,3% de precisão), mostrando um grande espaço para melhoria. Estudos de ablação adicionais revelam outras descobertas interessantes, como conjuntos de habilidades diferentes dos modelos em comparação com humanos. Esperamos que o MMWorld possa servir como um passo essencial para a avaliação de modelos de mundo em vídeos.
English
Multimodal Language Language Models (MLLMs) demonstrate the emerging
abilities of "world models" -- interpreting and reasoning about complex
real-world dynamics. To assess these abilities, we posit videos are the ideal
medium, as they encapsulate rich representations of real-world dynamics and
causalities. To this end, we introduce MMWorld, a new benchmark for
multi-discipline, multi-faceted multimodal video understanding. MMWorld
distinguishes itself from previous video understanding benchmarks with two
unique advantages: (1) multi-discipline, covering various disciplines that
often require domain expertise for comprehensive understanding; (2)
multi-faceted reasoning, including explanation, counterfactual thinking, future
prediction, etc. MMWorld consists of a human-annotated dataset to evaluate
MLLMs with questions about the whole videos and a synthetic dataset to analyze
MLLMs within a single modality of perception. Together, MMWorld encompasses
1,910 videos across seven broad disciplines and 69 subdisciplines, complete
with 6,627 question-answer pairs and associated captions. The evaluation
includes 2 proprietary and 10 open-source MLLMs, which struggle on MMWorld
(e.g., GPT-4V performs the best with only 52.3\% accuracy), showing large room
for improvement. Further ablation studies reveal other interesting findings
such as models' different skill sets from humans. We hope MMWorld can serve as
an essential step towards world model evaluation in videos.