Video ReCap: 長時間動画の再帰的キャプショニング
Video ReCap: Recursive Captioning of Hour-Long Videos
February 20, 2024
著者: Md Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius
cs.AI
要旨
ほとんどのビデオキャプションモデルは、数秒の短いビデオクリップを処理し、低レベルの視覚概念(例:物体、シーン、基本的な動作)を記述するテキストを出力するように設計されています。しかし、現実世界のビデオの多くは数分から数時間に及び、異なる時間的粒度にまたがる複雑な階層構造を持っています。本研究では、1秒から2時間まで大幅に異なる長さのビデオ入力を処理し、複数の階層レベルでビデオキャプションを出力できる再帰的ビデオキャプションモデル「Video ReCap」を提案します。この再帰的なビデオと言語のアーキテクチャは、異なるビデオ階層間の相乗効果を活用し、長時間のビデオを効率的に処理できます。ビデオの階層構造を学習するために、カリキュラム学習のトレーニングスキームを採用し、基本的な動作を記述するクリップレベルのキャプションから始め、セグメントレベルの記述に焦点を当て、最後に長時間のビデオの要約を生成します。さらに、Ego4Dに8,267の手動で収集された長距離ビデオ要約を追加したEgo4D-HCapデータセットを紹介します。私たちの再帰的モデルは、異なる階層レベルで柔軟にキャプションを生成できるだけでなく、EgoSchemaでのVideoQAなどの他の複雑なビデオ理解タスクにも有用です。データ、コード、およびモデルは以下で利用可能です:https://sites.google.com/view/vidrecap
English
Most video captioning models are designed to process short video clips of few
seconds and output text describing low-level visual concepts (e.g., objects,
scenes, atomic actions). However, most real-world videos last for minutes or
hours and have a complex hierarchical structure spanning different temporal
granularities. We propose Video ReCap, a recursive video captioning model that
can process video inputs of dramatically different lengths (from 1 second to 2
hours) and output video captions at multiple hierarchy levels. The recursive
video-language architecture exploits the synergy between different video
hierarchies and can process hour-long videos efficiently. We utilize a
curriculum learning training scheme to learn the hierarchical structure of
videos, starting from clip-level captions describing atomic actions, then
focusing on segment-level descriptions, and concluding with generating
summaries for hour-long videos. Furthermore, we introduce Ego4D-HCap dataset by
augmenting Ego4D with 8,267 manually collected long-range video summaries. Our
recursive model can flexibly generate captions at different hierarchy levels
while also being useful for other complex video understanding tasks, such as
VideoQA on EgoSchema. Data, code, and models are available at:
https://sites.google.com/view/vidrecap