UniVG:ユニモーダルなビデオ生成に向けて
UniVG: Towards UNIfied-modal Video Generation
January 17, 2024
著者: Ludan Ruan, Lei Tian, Chuanwei Huang, Xu Zhang, Xinyan Xiao
cs.AI
要旨
拡散モデルに基づく動画生成は、学術界と産業界の両方で広く注目を集め、大きな成功を収めています。しかし、現在の取り組みは主に単一目的または単一タスクの動画生成、例えばテキスト駆動、画像駆動、またはテキストと画像の組み合わせによる生成に集中しています。これは現実世界のアプリケーションシナリオのニーズを完全には満たせません。なぜなら、ユーザーは画像やテキストの条件を個別に、または組み合わせて柔軟に入力する可能性があるからです。この問題に対処するため、我々はテキストと画像のモダリティにまたがる複数の動画生成タスクを処理可能な統一モーダル動画生成システムを提案します。この目的のために、我々は生成の自由度の観点からシステム内の様々な動画生成タスクを再検討し、それらを高自由度と低自由度の動画生成カテゴリに分類します。高自由度の動画生成では、入力画像やテキストの意味に沿った動画を生成するためにマルチ条件クロスアテンションを採用します。低自由度の動画生成では、純粋なランダムガウスノイズの代わりにバイアス付きガウスノイズを導入し、入力条件の内容をより良く保持することを可能にします。我々の手法は、公開されている学術ベンチマークMSR-VTTにおいて最低のフレシェ動画距離(FVD)を達成し、現在のオープンソース手法を人間評価で上回り、クローズドソースの手法Gen2と同等の性能を示しています。より多くのサンプルについては、https://univg-baidu.github.io をご覧ください。
English
Diffusion based video generation has received extensive attention and
achieved considerable success within both the academic and industrial
communities. However, current efforts are mainly concentrated on
single-objective or single-task video generation, such as generation driven by
text, by image, or by a combination of text and image. This cannot fully meet
the needs of real-world application scenarios, as users are likely to input
images and text conditions in a flexible manner, either individually or in
combination. To address this, we propose a Unified-modal Video Genearation
system that is capable of handling multiple video generation tasks across text
and image modalities. To this end, we revisit the various video generation
tasks within our system from the perspective of generative freedom, and
classify them into high-freedom and low-freedom video generation categories.
For high-freedom video generation, we employ Multi-condition Cross Attention to
generate videos that align with the semantics of the input images or text. For
low-freedom video generation, we introduce Biased Gaussian Noise to replace the
pure random Gaussian Noise, which helps to better preserve the content of the
input conditions. Our method achieves the lowest Fr\'echet Video Distance (FVD)
on the public academic benchmark MSR-VTT, surpasses the current open-source
methods in human evaluations, and is on par with the current close-source
method Gen2. For more samples, visit https://univg-baidu.github.io.