ChatPaper.aiChatPaper

MMWorld: Naar een multidisciplinaire en veelzijdige evaluatie van wereldmodellen in video's

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

June 12, 2024
Auteurs: Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang
cs.AI

Samenvatting

Multimodale Taalmodellen (MLLMs) demonstreren de opkomende capaciteiten van "wereldmodellen" — het interpreteren en redeneren over complexe dynamieken uit de echte wereld. Om deze capaciteiten te beoordelen, stellen we dat video's het ideale medium zijn, omdat ze rijke representaties van real-world dynamieken en causaliteiten bevatten. Hiertoe introduceren we MMWorld, een nieuwe benchmark voor multidisciplinair, veelzijdig multimodaal videobegrip. MMWorld onderscheidt zich van eerdere benchmarks voor videobegrip met twee unieke voordelen: (1) multidisciplinair, waarbij verschillende disciplines worden bestreken die vaak domeinkennis vereisen voor een grondig begrip; (2) veelzijdig redeneren, inclusief uitleg, contrafeitelijk denken, toekomstvoorspelling, enz. MMWorld bestaat uit een door mensen geannoteerde dataset om MLLMs te evalueren met vragen over de volledige video's en een synthetische dataset om MLLMs te analyseren binnen een enkele waarnemingsmodaliteit. Samen omvat MMWorld 1.910 video's over zeven brede disciplines en 69 subdisciplines, compleet met 6.627 vraag-antwoordparen en bijbehorende bijschriften. De evaluatie omvat 2 propriëtaire en 10 open-source MLLMs, die moeite hebben met MMWorld (bijvoorbeeld GPT-4V presteert het beste met slechts 52,3% nauwkeurigheid), wat een grote ruimte voor verbetering laat zien. Verdere ablatiestudies onthullen andere interessante bevindingen, zoals de verschillende vaardigheden van modellen in vergelijking met mensen. We hopen dat MMWorld een essentiële stap kan zijn naar de evaluatie van wereldmodellen in video's.
English
Multimodal Language Language Models (MLLMs) demonstrate the emerging abilities of "world models" -- interpreting and reasoning about complex real-world dynamics. To assess these abilities, we posit videos are the ideal medium, as they encapsulate rich representations of real-world dynamics and causalities. To this end, we introduce MMWorld, a new benchmark for multi-discipline, multi-faceted multimodal video understanding. MMWorld distinguishes itself from previous video understanding benchmarks with two unique advantages: (1) multi-discipline, covering various disciplines that often require domain expertise for comprehensive understanding; (2) multi-faceted reasoning, including explanation, counterfactual thinking, future prediction, etc. MMWorld consists of a human-annotated dataset to evaluate MLLMs with questions about the whole videos and a synthetic dataset to analyze MLLMs within a single modality of perception. Together, MMWorld encompasses 1,910 videos across seven broad disciplines and 69 subdisciplines, complete with 6,627 question-answer pairs and associated captions. The evaluation includes 2 proprietary and 10 open-source MLLMs, which struggle on MMWorld (e.g., GPT-4V performs the best with only 52.3\% accuracy), showing large room for improvement. Further ablation studies reveal other interesting findings such as models' different skill sets from humans. We hope MMWorld can serve as an essential step towards world model evaluation in videos.
PDF280February 7, 2026