Vript: 1本の動画は千の言葉に値する
Vript: A Video Is Worth Thousands of Words
June 10, 2024
著者: Dongjie Yang, Suyuan Huang, Chengqiang Lu, Xiaodong Han, Haoxin Zhang, Yan Gao, Yao Hu, Hai Zhao
cs.AI
要旨
マルチモーダル学習、特に映像理解と生成の進展においては、高品質な映像-テキストデータセットがモデルの性能向上に不可欠です。Vriptはこの課題に対処するため、12,000本の高解像度映像からなる厳密にアノテーションされたコーパスを提供し、420,000以上のクリップに対して詳細で密度の高い台本のようなキャプションを付与しています。各クリップには約145語のキャプションが付いており、これは従来の映像-テキストデータセットの10倍以上の長さです。過去のデータセットでは静的な内容のみを記録していたキャプションとは異なり、Vriptでは映像の内容だけでなく、ショットタイプ(ミディアムショット、クローズアップなど)やカメラ操作(パン、チルトなど)も記録することで、映像キャプションを映像スクリプティングへと進化させました。Vriptを活用し、クリップとキャプションのペアではなく、より多くのテキストを映像モダリティに整合させる3つのトレーニングパラダイムを探求しました。その結果、オープンソースモデルの中で最高性能を誇る映像キャプションモデルVriptorが誕生し、その性能はGPT-4Vに匹敵します。Vriptorはまた、長時間映像に対して詳細で密度の高いキャプションをエンドツーエンドで生成できる強力なモデルでもあります。さらに、既存のベンチマークよりも挑戦的な3つの映像理解タスクからなるVript-Hardを紹介します。Vript-HALは、映像LLMにおけるアクションとオブジェクトの幻覚を評価する初のベンチマークです。Vript-RRは、長時間映像QAにおける質問の曖昧さを解決するために推論と検索を組み合わせたものです。Vript-EROは、過去の研究で扱われてきた短時間映像のアクションではなく、長時間映像におけるイベントの時間的理解を評価する新しいタスクです。すべてのコード、モデル、データセットはhttps://github.com/mutonix/Vriptで公開されています。
English
Advancements in multimodal learning, particularly in video understanding and
generation, require high-quality video-text datasets for improved model
performance. Vript addresses this issue with a meticulously annotated corpus of
12K high-resolution videos, offering detailed, dense, and script-like captions
for over 420K clips. Each clip has a caption of ~145 words, which is over 10x
longer than most video-text datasets. Unlike captions only documenting static
content in previous datasets, we enhance video captioning to video scripting by
documenting not just the content, but also the camera operations, which include
the shot types (medium shot, close-up, etc) and camera movements (panning,
tilting, etc). By utilizing the Vript, we explore three training paradigms of
aligning more text with the video modality rather than clip-caption pairs. This
results in Vriptor, a top-performing video captioning model among open-source
models, comparable to GPT-4V in performance. Vriptor is also a powerful model
capable of end-to-end generation of dense and detailed captions for long
videos. Moreover, we introduce Vript-Hard, a benchmark consisting of three
video understanding tasks that are more challenging than existing benchmarks:
Vript-HAL is the first benchmark evaluating action and object hallucinations in
video LLMs, Vript-RR combines reasoning with retrieval resolving question
ambiguity in long-video QAs, and Vript-ERO is a new task to evaluate the
temporal understanding of events in long videos rather than actions in short
videos in previous works. All code, models, and datasets are available in
https://github.com/mutonix/Vript.Summary
AI-Generated Summary