Vinoground: Het onderzoeken van LMM's voor Dichte Temporele Redenering met Korte Video's
Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos
October 3, 2024
Auteurs: Jianrui Zhang, Mu Cai, Yong Jae Lee
cs.AI
Samenvatting
Er is de laatste tijd een groeiend sentiment dat moderne grote multimodale modellen (LMM's) de meeste van de belangrijkste uitdagingen met betrekking tot het begrijpen van korte video's hebben aangepakt. Als gevolg hiervan verleggen zowel de academische wereld als de industrie geleidelijk hun aandacht naar de complexere uitdagingen die worden gesteld door het begrijpen van lange video's. Maar is dit echt het geval? Onze studies geven aan dat LMM's nog steeds veel fundamentele redeneervaardigheden missen, zelfs bij het omgaan met korte video's. We introduceren Vinoground, een temporale tegenfeitelijke LMM-evaluatiebenchmark die 1000 korte en natuurlijke video-onderschriftparen omvat. We tonen aan dat bestaande LMM's ernstige moeite hebben om temporale verschillen tussen verschillende acties en objecttransformaties te onderscheiden. Zo behaalt het beste model GPT-4o slechts ~50% op onze tekst- en videoscores, wat een groot verschil laat zien ten opzichte van de menselijke basislijn van ~90%. Alle open-source multimodale modellen en op CLIP gebaseerde modellen presteren veel slechter, waarbij ze voornamelijk willekeurige prestaties leveren. Met dit werk werpen we licht op het feit dat temporeel redeneren in korte video's een probleem is dat nog niet volledig is opgelost. De dataset en evaluatiecode zijn beschikbaar op https://vinoground.github.io.
English
There has been growing sentiment recently that modern large multimodal models
(LMMs) have addressed most of the key challenges related to short video
comprehension. As a result, both academia and industry are gradually shifting
their attention towards the more complex challenges posed by understanding
long-form videos. However, is this really the case? Our studies indicate that
LMMs still lack many fundamental reasoning capabilities even when dealing with
short videos. We introduce Vinoground, a temporal counterfactual LMM evaluation
benchmark encompassing 1000 short and natural video-caption pairs. We
demonstrate that existing LMMs severely struggle to distinguish temporal
differences between different actions and object transformations. For example,
the best model GPT-4o only obtains ~50% on our text and video scores, showing a
large gap compared to the human baseline of ~90%. All open-source multimodal
models and CLIP-based models perform much worse, producing mostly random chance
performance. Through this work, we shed light onto the fact that temporal
reasoning in short videos is a problem yet to be fully solved. The dataset and
evaluation code are available at https://vinoground.github.io.Summary
AI-Generated Summary