Vinoground: Исследование линейных моделей с оценкой плотного временного рассуждения на коротких видео
Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos
October 3, 2024
Авторы: Jianrui Zhang, Mu Cai, Yong Jae Lee
cs.AI
Аннотация
В последнее время стало заметно увеличение мнения о том, что современные крупные мультимодальные модели (LMM) успешно справляются с большинством ключевых проблем, связанных с пониманием коротких видео. В результате как академическое сообщество, так и промышленность постепенно переключают свое внимание на более сложные задачи, связанные с пониманием длинных видео. Однако ли это действительно так? Наши исследования показывают, что у LMM все еще отсутствуют многие фундаментальные способности к рассуждению, даже когда речь идет о коротких видео. Мы представляем Vinoground, временную контрфактическую оценочную платформу для LMM, включающую 1000 пар коротких и естественных видео и описаний. Мы демонстрируем, что существующие LMM с трудом различают временные различия между различными действиями и преобразованиями объектов. Например, лучшая модель GPT-4o достигает всего ~50% по нашим текстовым и видео показателям, что показывает значительный разрыв по сравнению с человеческим базовым уровнем в ~90%. Все открытые мультимодальные модели и модели на основе CLIP показывают гораздо худшие результаты, в основном демонстрируя случайные показатели. Через это исследование мы проливаем свет на то, что временное рассуждение в коротких видео остается проблемой, которая еще не полностью решена. Набор данных и код оценки доступны на https://vinoground.github.io.
English
There has been growing sentiment recently that modern large multimodal models
(LMMs) have addressed most of the key challenges related to short video
comprehension. As a result, both academia and industry are gradually shifting
their attention towards the more complex challenges posed by understanding
long-form videos. However, is this really the case? Our studies indicate that
LMMs still lack many fundamental reasoning capabilities even when dealing with
short videos. We introduce Vinoground, a temporal counterfactual LMM evaluation
benchmark encompassing 1000 short and natural video-caption pairs. We
demonstrate that existing LMMs severely struggle to distinguish temporal
differences between different actions and object transformations. For example,
the best model GPT-4o only obtains ~50% on our text and video scores, showing a
large gap compared to the human baseline of ~90%. All open-source multimodal
models and CLIP-based models perform much worse, producing mostly random chance
performance. Through this work, we shed light onto the fact that temporal
reasoning in short videos is a problem yet to be fully solved. The dataset and
evaluation code are available at https://vinoground.github.io.Summary
AI-Generated Summary