VidLA:大規模なビデオと言語のアラインメント
VidLA: Video-Language Alignment at Scale
March 21, 2024
著者: Mamshad Nayeem Rizve, Fan Fei, Jayakrishnan Unnikrishnan, Son Tran, Benjamin Z. Yao, Belinda Zeng, Mubarak Shah, Trishul Chilimbi
cs.AI
要旨
本論文では、大規模なビデオと言語のアラインメントを行うためのアプローチであるVidLAを提案する。従来のビデオと言語のアラインメント手法には2つの主要な制限がある。第一に、短期的および長期的な時間的依存関係を捉えることができず、通常、複雑な階層的ディープネットワークアーキテクチャを採用しているため、既存の事前学習済み画像-テキスト基盤モデルとの統合が困難である。この制限を効果的に解決するため、我々はネットワークアーキテクチャをシンプルに保ち、ビデオの時間的階層性を考慮して異なる時間解像度で動作するデータトークンのセットを階層的に使用する。シンプルなツータワーアーキテクチャを採用することで、事前学習済み画像-テキスト基盤モデルを用いてビデオと言語モデルを初期化し、最終的な性能を向上させることができる。第二に、既存のビデオと言語のアラインメント手法は、意味的に整合した大規模な訓練データの不足に悩まされている。これを克服するため、我々は最近の大規模言語モデル(LLM)を活用して、これまでで最大かつ視覚的基盤が強化されたビデオと言語データセットを構築した。さらに、既存のビデオ-テキストデータセットが短いクリップしか含まないのに対し、我々のデータセットは様々な長さのビデオクリップを豊富に含んでおり、時間的階層的なデータトークンが異なる時間スケールでより良い表現を抽出するのに役立つ。全体として、実験結果は、提案手法が複数の検索ベンチマークで最先端の手法を凌駕し、特に長いビデオにおいて優れた性能を発揮し、分類ベンチマークでも競争力のある性能を示すことを示している。
English
In this paper, we propose VidLA, an approach for video-language alignment at
scale. There are two major limitations of previous video-language alignment
approaches. First, they do not capture both short-range and long-range temporal
dependencies and typically employ complex hierarchical deep network
architectures that are hard to integrate with existing pretrained image-text
foundation models. To effectively address this limitation, we instead keep the
network architecture simple and use a set of data tokens that operate at
different temporal resolutions in a hierarchical manner, accounting for the
temporally hierarchical nature of videos. By employing a simple two-tower
architecture, we are able to initialize our video-language model with
pretrained image-text foundation models, thereby boosting the final
performance. Second, existing video-language alignment works struggle due to
the lack of semantically aligned large-scale training data. To overcome it, we
leverage recent LLMs to curate the largest video-language dataset to date with
better visual grounding. Furthermore, unlike existing video-text datasets which
only contain short clips, our dataset is enriched with video clips of varying
durations to aid our temporally hierarchical data tokens in extracting better
representations at varying temporal scales. Overall, empirical results show
that our proposed approach surpasses state-of-the-art methods on multiple
retrieval benchmarks, especially on longer videos, and performs competitively
on classification benchmarks.Summary
AI-Generated Summary