Vinoground: Examinando Modelos Lineares Mistas Lineares em Relação ao Raciocínio Temporal Denso com Vídeos Curtos
Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos
October 3, 2024
Autores: Jianrui Zhang, Mu Cai, Yong Jae Lee
cs.AI
Resumo
Recentemente, tem havido um sentimento crescente de que os modernos modelos multimodais grandes (LMMs) abordaram a maioria dos desafios-chave relacionados à compreensão de vídeos curtos. Como resultado, tanto a academia quanto a indústria estão gradualmente direcionando sua atenção para os desafios mais complexos apresentados pela compreensão de vídeos longos. No entanto, será que isso é realmente verdade? Nossos estudos indicam que os LMMs ainda carecem de muitas capacidades fundamentais de raciocínio, mesmo ao lidar com vídeos curtos. Apresentamos o Vinoground, um benchmark de avaliação LMM temporal contrafactual que abrange 1000 pares de vídeo-legenda curtos e naturais. Demonstramos que os LMMs existentes têm sérias dificuldades em distinguir diferenças temporais entre diferentes ações e transformações de objetos. Por exemplo, o melhor modelo GPT-4o obtém apenas ~50% em nossas pontuações de texto e vídeo, mostrando uma grande lacuna em comparação com a linha de base humana de ~90%. Todos os modelos multimodais de código aberto e modelos baseados em CLIP têm desempenho muito pior, produzindo principalmente um desempenho de chance aleatória. Através deste trabalho, lançamos luz sobre o fato de que o raciocínio temporal em vídeos curtos é um problema ainda não totalmente resolvido. O conjunto de dados e o código de avaliação estão disponíveis em https://vinoground.github.io.
English
There has been growing sentiment recently that modern large multimodal models
(LMMs) have addressed most of the key challenges related to short video
comprehension. As a result, both academia and industry are gradually shifting
their attention towards the more complex challenges posed by understanding
long-form videos. However, is this really the case? Our studies indicate that
LMMs still lack many fundamental reasoning capabilities even when dealing with
short videos. We introduce Vinoground, a temporal counterfactual LMM evaluation
benchmark encompassing 1000 short and natural video-caption pairs. We
demonstrate that existing LMMs severely struggle to distinguish temporal
differences between different actions and object transformations. For example,
the best model GPT-4o only obtains ~50% on our text and video scores, showing a
large gap compared to the human baseline of ~90%. All open-source multimodal
models and CLIP-based models perform much worse, producing mostly random chance
performance. Through this work, we shed light onto the fact that temporal
reasoning in short videos is a problem yet to be fully solved. The dataset and
evaluation code are available at https://vinoground.github.io.Summary
AI-Generated Summary