VideoGLUE: Оценка общего понимания видео базовыми моделями
VideoGLUE: Video General Understanding Evaluation of Foundation Models
July 6, 2023
Авторы: Liangzhe Yuan, Nitesh Bharadwaj Gundavarapu, Long Zhao, Hao Zhou, Yin Cui, Lu Jiang, Xuan Yang, Menglin Jia, Tobias Weyand, Luke Friedman, Mikhail Sirotenko, Huisheng Wang, Florian Schroff, Hartwig Adam, Ming-Hsuan Yang, Ting Liu, Boqing Gong
cs.AI
Аннотация
Мы оцениваем возможности существующих базовых моделей в понимании видео, используя тщательно разработанный экспериментальный протокол, включающий три ключевые задачи (распознавание действий, временная локализация и пространственно-временная локализация), восемь наборов данных, получивших признание в сообществе, и четыре метода адаптации базовой модели (FM) для решения конкретных задач. Кроме того, мы предлагаем скалярный показатель VideoGLUE Score (VGS) для оценки эффективности и производительности FM при адаптации к задачам общего понимания видео. Основные выводы нашей работы следующие. Во-первых, специализированные модели значительно превосходят шесть исследуемых FM, что резко контрастирует с достижениями FM в области понимания естественного языка и изображений. Во-вторых, FM, обученные на видеоданных, как правило, лучше справляются с классификацией видео, богатых движением, локализацией действий во времени и пониманием видео с несколькими действиями, чем FM, обученные на изображениях. В-третьих, FM, обученные на видеоданных, могут хорошо справляться с видео-задачами при минимальной адаптации к конкретным задачам (например, замораживании основного блока FM), тогда как FM, обученные на изображениях, выигрывают при полной сквозной тонкой настройке. Первые два наблюдения подчеркивают необходимость и огромные возможности для исследований в области FM, ориентированных на видео, а последнее подтверждает, что как задачи, так и методы адаптации имеют значение при оценке FM.
English
We evaluate existing foundation models video understanding capabilities using
a carefully designed experiment protocol consisting of three hallmark tasks
(action recognition, temporal localization, and spatiotemporal localization),
eight datasets well received by the community, and four adaptation methods
tailoring a foundation model (FM) for a downstream task. Moreover, we propose a
scalar VideoGLUE score (VGS) to measure an FMs efficacy and efficiency when
adapting to general video understanding tasks. Our main findings are as
follows. First, task-specialized models significantly outperform the six FMs
studied in this work, in sharp contrast to what FMs have achieved in natural
language and image understanding. Second,video-native FMs, whose pretraining
data contains the video modality, are generally better than image-native FMs in
classifying motion-rich videos, localizing actions in time, and understanding a
video of more than one action. Third, the video-native FMs can perform well on
video tasks under light adaptations to downstream tasks(e.g., freezing the FM
backbones), while image-native FMs win in full end-to-end finetuning. The first
two observations reveal the need and tremendous opportunities to conduct
research on video-focused FMs, and the last confirms that both tasks and
adaptation methods matter when it comes to the evaluation of FMs.