ShareGPT4Video: より優れたキャプションによる映像理解と生成の改善ShareGPT4Video: Improving Video Understanding and Generation with Better
Captions
ShareGPT4Videoシリーズを紹介します。本シリーズは、大規模なビデオ言語モデル(LVLM)のビデオ理解と、テキストからビデオを生成するモデル(T2VM)のビデオ生成を、緻密で正確なキャプションを通じて促進することを目的としています。シリーズは以下の3つで構成されます:1) ShareGPT4Video - 様々な長さとソースのビデオに対してGPT4Vで注釈付けされた40,000件の緻密なキャプションで、慎重に設計されたデータフィルタリングと注釈付け戦略を通じて開発されました。2) ShareCaptioner-Video - 任意のビデオに対して効率的かつ高品質なキャプションを生成できるモデルで、480万件の高品質で美的なビデオに注釈を付けました。3) ShareGPT4Video-8B - シンプルでありながら優れたLVLMで、3つの先進的なビデオベンチマークでSOTA性能を達成しました。これを実現するため、スケーラビリティの低い高コストな人間の注釈者を除き、GPT4Vを使用してビデオにキャプションを付ける際に、単純なマルチフレームやフレーム連結の入力戦略では、詳細が不足し、時系列が混乱する結果になることを発見しました。高品質なビデオキャプション戦略の設計における課題は、以下の3つの側面にあると主張します:1) フレーム間の正確な時間的変化の理解。2) フレーム内の詳細な内容の記述。3) 任意の長さのビデオに対するフレーム数のスケーラビリティ。このため、任意の解像度、アスペクト比、長さのビデオに対して安定してスケーラブルで効率的なキャプションを生成するための差分ビデオキャプション戦略を緻密に設計しました。これに基づいて、幅広いカテゴリにわたる40,000件の高品質なビデオを含むShareGPT4Videoを構築し、その結果得られたキャプションは、豊富な世界知識、オブジェクトの属性、カメラの動き、そして重要なことに、イベントの詳細で正確な時間的記述を含んでいます。ShareGPT4Videoに基づいて、さらにShareCaptioner-Videoを開発しました。これは、任意のビデオに対して効率的に高品質なキャプションを生成できる優れたキャプションモデルです...