Vinoground: Untersuchung von LMMs zur dichten zeitlichen Schlussfolgerung mit kurzen Videos
Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos
October 3, 2024
Autoren: Jianrui Zhang, Mu Cai, Yong Jae Lee
cs.AI
Zusammenfassung
In letzter Zeit hat sich die Ansicht verbreitet, dass moderne große multimodale Modelle (LMMs) die meisten der wichtigsten Herausforderungen im Zusammenhang mit der Verständnis von kurzen Videos bewältigt haben. Als Ergebnis verlagern sowohl die akademische Welt als auch die Industrie allmählich ihre Aufmerksamkeit auf die komplexeren Herausforderungen, die sich aus dem Verständnis von Langformvideos ergeben. Aber ist das wirklich so? Unsere Studien zeigen, dass LMMs immer noch viele grundlegende Fähigkeiten zur Schlussfolgerung fehlen, selbst bei der Bearbeitung von kurzen Videos. Wir stellen Vinoground vor, einen zeitlichen kontrafaktischen LMM-Evaluierungsbenchmark, der 1000 kurze und natürliche Video-Untertitelpaare umfasst. Wir zeigen, dass bestehende LMMs erhebliche Schwierigkeiten haben, zeitliche Unterschiede zwischen verschiedenen Handlungen und Objekttransformationen zu unterscheiden. Zum Beispiel erzielt das beste Modell GPT-4o nur etwa ~50% bei unseren Text- und Video-Bewertungen, was eine große Lücke im Vergleich zur menschlichen Basislinie von ~90% zeigt. Alle Open-Source multimodalen Modelle und CLIP-basierten Modelle schneiden viel schlechter ab und erzielen größtenteils zufällige Leistungen. Durch diese Arbeit werfen wir Licht darauf, dass das zeitliche Schlussfolgern in kurzen Videos ein Problem ist, das noch nicht vollständig gelöst ist. Der Datensatz und der Evaluierungscode sind unter https://vinoground.github.io verfügbar.
English
There has been growing sentiment recently that modern large multimodal models
(LMMs) have addressed most of the key challenges related to short video
comprehension. As a result, both academia and industry are gradually shifting
their attention towards the more complex challenges posed by understanding
long-form videos. However, is this really the case? Our studies indicate that
LMMs still lack many fundamental reasoning capabilities even when dealing with
short videos. We introduce Vinoground, a temporal counterfactual LMM evaluation
benchmark encompassing 1000 short and natural video-caption pairs. We
demonstrate that existing LMMs severely struggle to distinguish temporal
differences between different actions and object transformations. For example,
the best model GPT-4o only obtains ~50% on our text and video scores, showing a
large gap compared to the human baseline of ~90%. All open-source multimodal
models and CLIP-based models perform much worse, producing mostly random chance
performance. Through this work, we shed light onto the fact that temporal
reasoning in short videos is a problem yet to be fully solved. The dataset and
evaluation code are available at https://vinoground.github.io.Summary
AI-Generated Summary