Vinoground: 短いビデオにおける密な時間推論を通じたLMMsの精査
Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos
October 3, 2024
著者: Jianrui Zhang, Mu Cai, Yong Jae Lee
cs.AI
要旨
最近、現代の大規模なマルチモーダルモデル(LMMs)が、短いビデオの理解に関連する主要な課題のほとんどを解決してきたという考えが広まっています。その結果、学術界と産業界の両方が徐々に、長尺のビデオを理解する際に提起されるより複雑な課題に注力し始めています。しかし、これが本当にそうなのでしょうか?私たちの研究によると、LMMsは依然として、短いビデオを扱う際にも多くの基本的な推論能力を欠いています。私たちは、1000の短い自然なビデオキャプションペアを含む時間的反事実的LMM評価ベンチマークであるVinogroundを紹介します。既存のLMMsは、異なるアクションやオブジェクトの変換の時間的な違いを区別するのに非常に苦労していることを示しています。例えば、最高のモデルGPT-4oは、私たちのテキストとビデオのスコアで約50%しか得られず、人間のベースラインである約90%と比較して大きな差があることが示されています。すべてのオープンソースのマルチモーダルモデルやCLIPベースのモデルは、ほとんどランダムなチャンスのパフォーマンスしか出せず、はるかに劣っています。この研究を通じて、短いビデオでの時間的推論がまだ完全に解決されていない問題であることを明らかにします。データセットと評価コードは、https://vinoground.github.io で入手可能です。
English
There has been growing sentiment recently that modern large multimodal models
(LMMs) have addressed most of the key challenges related to short video
comprehension. As a result, both academia and industry are gradually shifting
their attention towards the more complex challenges posed by understanding
long-form videos. However, is this really the case? Our studies indicate that
LMMs still lack many fundamental reasoning capabilities even when dealing with
short videos. We introduce Vinoground, a temporal counterfactual LMM evaluation
benchmark encompassing 1000 short and natural video-caption pairs. We
demonstrate that existing LMMs severely struggle to distinguish temporal
differences between different actions and object transformations. For example,
the best model GPT-4o only obtains ~50% on our text and video scores, showing a
large gap compared to the human baseline of ~90%. All open-source multimodal
models and CLIP-based models perform much worse, producing mostly random chance
performance. Through this work, we shed light onto the fact that temporal
reasoning in short videos is a problem yet to be fully solved. The dataset and
evaluation code are available at https://vinoground.github.io.Summary
AI-Generated Summary