VideoGLUE: 基盤モデルのための映像汎用理解評価
VideoGLUE: Video General Understanding Evaluation of Foundation Models
July 6, 2023
著者: Liangzhe Yuan, Nitesh Bharadwaj Gundavarapu, Long Zhao, Hao Zhou, Yin Cui, Lu Jiang, Xuan Yang, Menglin Jia, Tobias Weyand, Luke Friedman, Mikhail Sirotenko, Huisheng Wang, Florian Schroff, Hartwig Adam, Ming-Hsuan Yang, Ting Liu, Boqing Gong
cs.AI
要旨
我々は、既存の基盤モデルの映像理解能力を評価するために、3つの代表的なタスク(行動認識、時間的ローカライゼーション、時空間的ローカライゼーション)、コミュニティで高く評価されている8つのデータセット、そして下流タスクに基盤モデル(FM)を適応させる4つの手法からなる慎重に設計された実験プロトコルを用いました。さらに、一般的な映像理解タスクに適応する際のFMの有効性と効率性を測定するためのスカラー値であるVideoGLUEスコア(VGS)を提案しました。主な発見は以下の通りです。第一に、タスク特化型モデルは、本研究で調査した6つのFMを大きく上回り、これはFMが自然言語や画像理解で達成した成果とは対照的です。第二に、事前学習データに映像モダリティを含むビデオネイティブFMは、動きの多い映像の分類、時間的な行動のローカライゼーション、複数の行動を含む映像の理解において、一般的にイメージネイティブFMよりも優れています。第三に、ビデオネイティブFMは、下流タスクへの軽微な適応(例:FMバックボーンの凍結)で映像タスクにおいて良好な性能を発揮する一方、イメージネイティブFMは完全なエンドツーエンドのファインチューニングで優位に立ちます。最初の2つの観察は、映像に焦点を当てたFMの研究の必要性と大きな機会を示しており、最後の観察は、FMの評価においてタスクと適応手法の両方が重要であることを確認しています。
English
We evaluate existing foundation models video understanding capabilities using
a carefully designed experiment protocol consisting of three hallmark tasks
(action recognition, temporal localization, and spatiotemporal localization),
eight datasets well received by the community, and four adaptation methods
tailoring a foundation model (FM) for a downstream task. Moreover, we propose a
scalar VideoGLUE score (VGS) to measure an FMs efficacy and efficiency when
adapting to general video understanding tasks. Our main findings are as
follows. First, task-specialized models significantly outperform the six FMs
studied in this work, in sharp contrast to what FMs have achieved in natural
language and image understanding. Second,video-native FMs, whose pretraining
data contains the video modality, are generally better than image-native FMs in
classifying motion-rich videos, localizing actions in time, and understanding a
video of more than one action. Third, the video-native FMs can perform well on
video tasks under light adaptations to downstream tasks(e.g., freezing the FM
backbones), while image-native FMs win in full end-to-end finetuning. The first
two observations reveal the need and tremendous opportunities to conduct
research on video-focused FMs, and the last confirms that both tasks and
adaptation methods matter when it comes to the evaluation of FMs.