Vinoground : Examen des LMM sur le raisonnement temporel dense avec des vidéos courtes
Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos
October 3, 2024
Auteurs: Jianrui Zhang, Mu Cai, Yong Jae Lee
cs.AI
Résumé
Il y a eu récemment un sentiment croissant selon lequel les modernes grands modèles multimodaux (LMM) ont abordé la plupart des défis clés liés à la compréhension des courtes vidéos. En conséquence, tant le milieu universitaire que l'industrie déplacent progressivement leur attention vers les défis plus complexes posés par la compréhension des vidéos longues. Cependant, est-ce vraiment le cas ? Nos études indiquent que les LMM manquent encore de nombreuses capacités de raisonnement fondamentales même lorsqu'ils traitent de courtes vidéos. Nous introduisons Vinoground, un banc d'essai d'évaluation LMM contrefactuel temporel comprenant 1000 paires de vidéos courtes et naturelles avec légendes. Nous démontrons que les LMM existants ont du mal à distinguer les différences temporelles entre différentes actions et transformations d'objets. Par exemple, le meilleur modèle GPT-4o n'obtient qu'environ 50 % sur nos scores de texte et de vidéo, montrant un écart important par rapport à la référence humaine d'environ 90 %. Tous les modèles multimodaux open-source et les modèles basés sur CLIP se comportent beaucoup moins bien, produisant principalement des performances aléatoires. À travers ce travail, nous mettons en lumière le fait que le raisonnement temporel dans les vidéos courtes est un problème qui reste à résoudre pleinement. Le jeu de données et le code d'évaluation sont disponibles sur https://vinoground.github.io.
English
There has been growing sentiment recently that modern large multimodal models
(LMMs) have addressed most of the key challenges related to short video
comprehension. As a result, both academia and industry are gradually shifting
their attention towards the more complex challenges posed by understanding
long-form videos. However, is this really the case? Our studies indicate that
LMMs still lack many fundamental reasoning capabilities even when dealing with
short videos. We introduce Vinoground, a temporal counterfactual LMM evaluation
benchmark encompassing 1000 short and natural video-caption pairs. We
demonstrate that existing LMMs severely struggle to distinguish temporal
differences between different actions and object transformations. For example,
the best model GPT-4o only obtains ~50% on our text and video scores, showing a
large gap compared to the human baseline of ~90%. All open-source multimodal
models and CLIP-based models perform much worse, producing mostly random chance
performance. Through this work, we shed light onto the fact that temporal
reasoning in short videos is a problem yet to be fully solved. The dataset and
evaluation code are available at https://vinoground.github.io.Summary
AI-Generated Summary