Vinoground: Esaminare i LMM su un Ragionamento Temporale Denso con Video Brevi
Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos
October 3, 2024
Autori: Jianrui Zhang, Mu Cai, Yong Jae Lee
cs.AI
Abstract
Di recente si è diffuso il sentimento che i moderni grandi modelli multimodali (LMM) abbiano affrontato la maggior parte delle sfide chiave legate alla comprensione dei video brevi. Di conseguenza, sia l'accademia che l'industria stanno gradualmente spostando la loro attenzione verso le sfide più complesse poste dalla comprensione dei video di lunga durata. Tuttavia, è davvero così? I nostri studi indicano che i LMM ancora mancano di molte capacità di ragionamento fondamentali anche quando si tratta di video brevi. Presentiamo Vinoground, un benchmark di valutazione temporale di LMM controfattuali che comprende 1000 coppie di video-brevi e didascalie naturali. Dimostriamo che i LMM esistenti faticano gravemente a distinguere le differenze temporali tra azioni diverse e trasformazioni di oggetti. Ad esempio, il miglior modello GPT-4o ottiene solo ~50% sui nostri punteggi di testo e video, mostrando un ampio divario rispetto alla baseline umana di ~90%. Tutti i modelli multimodali open-source e i modelli basati su CLIP ottengono risultati molto peggiori, producendo principalmente prestazioni casuali. Attraverso questo lavoro, mettiamo in luce il fatto che il ragionamento temporale nei video brevi è ancora un problema da risolvere completamente. Il dataset e il codice di valutazione sono disponibili su https://vinoground.github.io.
English
There has been growing sentiment recently that modern large multimodal models
(LMMs) have addressed most of the key challenges related to short video
comprehension. As a result, both academia and industry are gradually shifting
their attention towards the more complex challenges posed by understanding
long-form videos. However, is this really the case? Our studies indicate that
LMMs still lack many fundamental reasoning capabilities even when dealing with
short videos. We introduce Vinoground, a temporal counterfactual LMM evaluation
benchmark encompassing 1000 short and natural video-caption pairs. We
demonstrate that existing LMMs severely struggle to distinguish temporal
differences between different actions and object transformations. For example,
the best model GPT-4o only obtains ~50% on our text and video scores, showing a
large gap compared to the human baseline of ~90%. All open-source multimodal
models and CLIP-based models perform much worse, producing mostly random chance
performance. Through this work, we shed light onto the fact that temporal
reasoning in short videos is a problem yet to be fully solved. The dataset and
evaluation code are available at https://vinoground.github.io.