Vinoground : Examen des LMM sur le raisonnement temporel dense avec des vidéos courtes

papers.abstract

Il y a eu récemment un sentiment croissant selon lequel les modernes grands modèles multimodaux (LMM) ont abordé la plupart des défis clés liés à la compréhension des courtes vidéos. En conséquence, tant le milieu universitaire que l'industrie déplacent progressivement leur attention vers les défis plus complexes posés par la compréhension des vidéos longues. Cependant, est-ce vraiment le cas ? Nos études indiquent que les LMM manquent encore de nombreuses capacités de raisonnement fondamentales même lorsqu'ils traitent de courtes vidéos. Nous introduisons Vinoground, un banc d'essai d'évaluation LMM contrefactuel temporel comprenant 1000 paires de vidéos courtes et naturelles avec légendes. Nous démontrons que les LMM existants ont du mal à distinguer les différences temporelles entre différentes actions et transformations d'objets. Par exemple, le meilleur modèle GPT-4o n'obtient qu'environ 50 % sur nos scores de texte et de vidéo, montrant un écart important par rapport à la référence humaine d'environ 90 %. Tous les modèles multimodaux open-source et les modèles basés sur CLIP se comportent beaucoup moins bien, produisant principalement des performances aléatoires. À travers ce travail, nous mettons en lumière le fait que le raisonnement temporel dans les vidéos courtes est un problème qui reste à résoudre pleinement. Le jeu de données et le code d'évaluation sont disponibles sur https://vinoground.github.io.

English

There has been growing sentiment recently that modern large multimodal models (LMMs) have addressed most of the key challenges related to short video comprehension. As a result, both academia and industry are gradually shifting their attention towards the more complex challenges posed by understanding long-form videos. However, is this really the case? Our studies indicate that LMMs still lack many fundamental reasoning capabilities even when dealing with short videos. We introduce Vinoground, a temporal counterfactual LMM evaluation benchmark encompassing 1000 short and natural video-caption pairs. We demonstrate that existing LMMs severely struggle to distinguish temporal differences between different actions and object transformations. For example, the best model GPT-4o only obtains ~50% on our text and video scores, showing a large gap compared to the human baseline of ~90%. All open-source multimodal models and CLIP-based models perform much worse, producing mostly random chance performance. Through this work, we shed light onto the fact that temporal reasoning in short videos is a problem yet to be fully solved. The dataset and evaluation code are available at https://vinoground.github.io.

Vinoground : Examen des LMM sur le raisonnement temporel dense avec des vidéos courtes

Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos

papers.abstract

Support