VEnhancer: ビデオ生成のための生成的時空間拡張
VEnhancer: Generative Space-Time Enhancement for Video Generation
July 10, 2024
著者: Jingwen He, Tianfan Xue, Dongyang Liu, Xinqi Lin, Peng Gao, Dahua Lin, Yu Qiao, Wanli Ouyang, Ziwei Liu
cs.AI
要旨
本論文では、VEnhancerを紹介します。これは、空間領域における詳細の追加と時間領域における合成された詳細な動きを加えることで、既存のテキストからビデオ生成の結果を向上させる生成型時空間拡張フレームワークです。生成された低品質のビデオを入力として、我々のアプローチは、統一されたビデオ拡散モデルを通じて、任意のアップサンプリング空間および時間スケールで空間的および時間的解像度を同時に向上させることができます。さらに、VEnhancerは、生成されたビデオの空間的なアーティファクトや時間的なちらつきを効果的に除去します。これを実現するために、事前学習済みのビデオ拡散モデルに基づいて、ビデオControlNetを学習し、低フレームレートおよび低解像度のビデオに対する条件として拡散モデルに注入します。このビデオControlNetを効果的に学習するために、時空間データ拡張とビデオ対応の条件付けを設計しました。これらの設計により、VEnhancerは学習中に安定し、エレガントなエンドツーエンドの学習方式を共有します。広範な実験により、VEnhancerがAI生成ビデオの拡張において、既存の最先端のビデオ超解像および時空間超解像手法を凌駕することが示されました。さらに、VEnhancerを活用することで、既存のオープンソースの最先端テキストからビデオ生成手法であるVideoCrafter-2が、ビデオ生成ベンチマークであるVBenchにおいてトップに到達しました。
English
We present VEnhancer, a generative space-time enhancement framework that
improves the existing text-to-video results by adding more details in spatial
domain and synthetic detailed motion in temporal domain. Given a generated
low-quality video, our approach can increase its spatial and temporal
resolution simultaneously with arbitrary up-sampling space and time scales
through a unified video diffusion model. Furthermore, VEnhancer effectively
removes generated spatial artifacts and temporal flickering of generated
videos. To achieve this, basing on a pretrained video diffusion model, we train
a video ControlNet and inject it to the diffusion model as a condition on low
frame-rate and low-resolution videos. To effectively train this video
ControlNet, we design space-time data augmentation as well as video-aware
conditioning. Benefiting from the above designs, VEnhancer yields to be stable
during training and shares an elegant end-to-end training manner. Extensive
experiments show that VEnhancer surpasses existing state-of-the-art video
super-resolution and space-time super-resolution methods in enhancing
AI-generated videos. Moreover, with VEnhancer, exisiting open-source
state-of-the-art text-to-video method, VideoCrafter-2, reaches the top one in
video generation benchmark -- VBench.Summary
AI-Generated Summary