ChatPaper.aiChatPaper

Vinoground: Untersuchung von LMMs zur dichten zeitlichen Schlussfolgerung mit kurzen Videos

Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos

October 3, 2024
Autoren: Jianrui Zhang, Mu Cai, Yong Jae Lee
cs.AI

Zusammenfassung

In letzter Zeit hat sich die Ansicht verbreitet, dass moderne große multimodale Modelle (LMMs) die meisten der wichtigsten Herausforderungen im Zusammenhang mit der Verständnis von kurzen Videos bewältigt haben. Als Ergebnis verlagern sowohl die akademische Welt als auch die Industrie allmählich ihre Aufmerksamkeit auf die komplexeren Herausforderungen, die sich aus dem Verständnis von Langformvideos ergeben. Aber ist das wirklich so? Unsere Studien zeigen, dass LMMs immer noch viele grundlegende Fähigkeiten zur Schlussfolgerung fehlen, selbst bei der Bearbeitung von kurzen Videos. Wir stellen Vinoground vor, einen zeitlichen kontrafaktischen LMM-Evaluierungsbenchmark, der 1000 kurze und natürliche Video-Untertitelpaare umfasst. Wir zeigen, dass bestehende LMMs erhebliche Schwierigkeiten haben, zeitliche Unterschiede zwischen verschiedenen Handlungen und Objekttransformationen zu unterscheiden. Zum Beispiel erzielt das beste Modell GPT-4o nur etwa ~50% bei unseren Text- und Video-Bewertungen, was eine große Lücke im Vergleich zur menschlichen Basislinie von ~90% zeigt. Alle Open-Source multimodalen Modelle und CLIP-basierten Modelle schneiden viel schlechter ab und erzielen größtenteils zufällige Leistungen. Durch diese Arbeit werfen wir Licht darauf, dass das zeitliche Schlussfolgern in kurzen Videos ein Problem ist, das noch nicht vollständig gelöst ist. Der Datensatz und der Evaluierungscode sind unter https://vinoground.github.io verfügbar.
English
There has been growing sentiment recently that modern large multimodal models (LMMs) have addressed most of the key challenges related to short video comprehension. As a result, both academia and industry are gradually shifting their attention towards the more complex challenges posed by understanding long-form videos. However, is this really the case? Our studies indicate that LMMs still lack many fundamental reasoning capabilities even when dealing with short videos. We introduce Vinoground, a temporal counterfactual LMM evaluation benchmark encompassing 1000 short and natural video-caption pairs. We demonstrate that existing LMMs severely struggle to distinguish temporal differences between different actions and object transformations. For example, the best model GPT-4o only obtains ~50% on our text and video scores, showing a large gap compared to the human baseline of ~90%. All open-source multimodal models and CLIP-based models perform much worse, producing mostly random chance performance. Through this work, we shed light onto the fact that temporal reasoning in short videos is a problem yet to be fully solved. The dataset and evaluation code are available at https://vinoground.github.io.

Summary

AI-Generated Summary

PDF72November 16, 2024