ShareGPT4Video: より優れたキャプションによる映像理解と生成の改善
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions
June 6, 2024
著者: Lin Chen, Xilin Wei, Jinsong Li, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Zehui Chen, Haodong Duan, Bin Lin, Zhenyu Tang, Li Yuan, Yu Qiao, Dahua Lin, Feng Zhao, Jiaqi Wang
cs.AI
要旨
ShareGPT4Videoシリーズを紹介します。本シリーズは、大規模なビデオ言語モデル(LVLM)のビデオ理解と、テキストからビデオを生成するモデル(T2VM)のビデオ生成を、緻密で正確なキャプションを通じて促進することを目的としています。シリーズは以下の3つで構成されます:1) ShareGPT4Video - 様々な長さとソースのビデオに対してGPT4Vで注釈付けされた40,000件の緻密なキャプションで、慎重に設計されたデータフィルタリングと注釈付け戦略を通じて開発されました。2) ShareCaptioner-Video - 任意のビデオに対して効率的かつ高品質なキャプションを生成できるモデルで、480万件の高品質で美的なビデオに注釈を付けました。3) ShareGPT4Video-8B - シンプルでありながら優れたLVLMで、3つの先進的なビデオベンチマークでSOTA性能を達成しました。これを実現するため、スケーラビリティの低い高コストな人間の注釈者を除き、GPT4Vを使用してビデオにキャプションを付ける際に、単純なマルチフレームやフレーム連結の入力戦略では、詳細が不足し、時系列が混乱する結果になることを発見しました。高品質なビデオキャプション戦略の設計における課題は、以下の3つの側面にあると主張します:1) フレーム間の正確な時間的変化の理解。2) フレーム内の詳細な内容の記述。3) 任意の長さのビデオに対するフレーム数のスケーラビリティ。このため、任意の解像度、アスペクト比、長さのビデオに対して安定してスケーラブルで効率的なキャプションを生成するための差分ビデオキャプション戦略を緻密に設計しました。これに基づいて、幅広いカテゴリにわたる40,000件の高品質なビデオを含むShareGPT4Videoを構築し、その結果得られたキャプションは、豊富な世界知識、オブジェクトの属性、カメラの動き、そして重要なことに、イベントの詳細で正確な時間的記述を含んでいます。ShareGPT4Videoに基づいて、さらにShareCaptioner-Videoを開発しました。これは、任意のビデオに対して効率的に高品質なキャプションを生成できる優れたキャプションモデルです...
English
We present the ShareGPT4Video series, aiming to facilitate the video
understanding of large video-language models (LVLMs) and the video generation
of text-to-video models (T2VMs) via dense and precise captions. The series
comprises: 1) ShareGPT4Video, 40K GPT4V annotated dense captions of videos with
various lengths and sources, developed through carefully designed data
filtering and annotating strategy. 2) ShareCaptioner-Video, an efficient and
capable captioning model for arbitrary videos, with 4.8M high-quality aesthetic
videos annotated by it. 3) ShareGPT4Video-8B, a simple yet superb LVLM that
reached SOTA performance on three advancing video benchmarks. To achieve this,
taking aside the non-scalable costly human annotators, we find using GPT4V to
caption video with a naive multi-frame or frame-concatenation input strategy
leads to less detailed and sometimes temporal-confused results. We argue the
challenge of designing a high-quality video captioning strategy lies in three
aspects: 1) Inter-frame precise temporal change understanding. 2) Intra-frame
detailed content description. 3) Frame-number scalability for arbitrary-length
videos. To this end, we meticulously designed a differential video captioning
strategy, which is stable, scalable, and efficient for generating captions for
videos with arbitrary resolution, aspect ratios, and length. Based on it, we
construct ShareGPT4Video, which contains 40K high-quality videos spanning a
wide range of categories, and the resulting captions encompass rich world
knowledge, object attributes, camera movements, and crucially, detailed and
precise temporal descriptions of events. Based on ShareGPT4Video, we further
develop ShareCaptioner-Video, a superior captioner capable of efficiently
generating high-quality captions for arbitrary videos...Summary
AI-Generated Summary