ChatPaper.aiChatPaper

VideoCrafter2: 高品質ビデオ生成のためのデータ制約の克服 拡散モデル

VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models

January 17, 2024
著者: Haoxin Chen, Yong Zhang, Xiaodong Cun, Menghan Xia, Xintao Wang, Chao Weng, Ying Shan
cs.AI

要旨

テキストからビデオを生成する技術は、与えられたプロンプトに基づいてビデオを生成することを目指しています。最近では、いくつかの商用ビデオモデルが、最小限のノイズ、優れた詳細、高い美的スコアを持つ説得力のあるビデオを生成できるようになりました。しかし、これらのモデルは、コミュニティがアクセスできない大規模でよくフィルタリングされた高品質のビデオに依存しています。低品質のWebVid-10Mデータセットを使用してモデルを訓練する多くの既存の研究は、モデルがWebVid-10Mに適合するように最適化されているため、高品質のビデオを生成するのに苦労しています。本研究では、Stable Diffusionから拡張されたビデオモデルの訓練スキームを探り、低品質のビデオと合成された高品質の画像を活用して高品質のビデオモデルを取得する可能性を調査します。まず、ビデオモデルの空間モジュールと時間モジュールの関係、および低品質ビデオへの分布シフトを分析します。すべてのモジュールを完全に訓練すると、時間モジュールのみを訓練する場合よりも空間モジュールと時間モジュールの結合が強くなることを観察します。このより強い結合に基づいて、高品質の画像で空間モジュールを微調整することで、モーションの劣化なしに分布を高品質にシフトし、汎用的な高品質ビデオモデルを実現します。提案手法の優位性、特に画質、モーション、コンセプト構成において、評価を行います。
English
Text-to-video generation aims to produce a video based on a given prompt. Recently, several commercial video models have been able to generate plausible videos with minimal noise, excellent details, and high aesthetic scores. However, these models rely on large-scale, well-filtered, high-quality videos that are not accessible to the community. Many existing research works, which train models using the low-quality WebVid-10M dataset, struggle to generate high-quality videos because the models are optimized to fit WebVid-10M. In this work, we explore the training scheme of video models extended from Stable Diffusion and investigate the feasibility of leveraging low-quality videos and synthesized high-quality images to obtain a high-quality video model. We first analyze the connection between the spatial and temporal modules of video models and the distribution shift to low-quality videos. We observe that full training of all modules results in a stronger coupling between spatial and temporal modules than only training temporal modules. Based on this stronger coupling, we shift the distribution to higher quality without motion degradation by finetuning spatial modules with high-quality images, resulting in a generic high-quality video model. Evaluations are conducted to demonstrate the superiority of the proposed method, particularly in picture quality, motion, and concept composition.
PDF142December 15, 2024