LAVIE : Génération de vidéos de haute qualité avec des modèles de diffusion latente en cascade
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models
September 26, 2023
Auteurs: Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, Yuwei Guo, Tianxing Wu, Chenyang Si, Yuming Jiang, Cunjian Chen, Chen Change Loy, Bo Dai, Dahua Lin, Yu Qiao, Ziwei Liu
cs.AI
Résumé
Ce travail vise à apprendre un modèle génératif de texte-à-vidéo (T2V) de haute qualité en s'appuyant sur un modèle pré-entraîné de texte-à-image (T2I) comme base. C'est une tâche très souhaitable mais difficile de parvenir simultanément à a) réaliser la synthèse de vidéos visuellement réalistes et temporellement cohérentes tout en b) préservant la forte nature créative de génération du modèle T2I pré-entraîné. À cette fin, nous proposons LaVie, un cadre intégré de génération vidéo qui opère sur des modèles de diffusion latente vidéo en cascade, comprenant un modèle de base T2V, un modèle d'interpolation temporelle et un modèle de super-résolution vidéo. Nos principales intuitions sont doubles : 1) Nous révélons que l'incorporation d'auto-attentions temporelles simples, couplées à un encodage positionnel rotatif, capture adéquatement les corrélations temporelles inhérentes aux données vidéo. 2) De plus, nous validons que le processus de fine-tuning conjoint image-vidéo joue un rôle essentiel dans la production de résultats de haute qualité et créatifs. Pour améliorer les performances de LaVie, nous contribuons avec un ensemble de données vidéo complet et diversifié nommé Vimeo25M, composé de 25 millions de paires texte-vidéo qui privilégient la qualité, la diversité et l'attrait esthétique. Des expériences approfondies démontrent que LaVie atteint des performances de pointe à la fois quantitativement et qualitativement. Par ailleurs, nous mettons en avant la polyvalence des modèles LaVie pré-entraînés dans diverses applications de génération de vidéos longues et de synthèse vidéo personnalisée.
English
This work aims to learn a high-quality text-to-video (T2V) generative model
by leveraging a pre-trained text-to-image (T2I) model as a basis. It is a
highly desirable yet challenging task to simultaneously a) accomplish the
synthesis of visually realistic and temporally coherent videos while b)
preserving the strong creative generation nature of the pre-trained T2I model.
To this end, we propose LaVie, an integrated video generation framework that
operates on cascaded video latent diffusion models, comprising a base T2V
model, a temporal interpolation model, and a video super-resolution model. Our
key insights are two-fold: 1) We reveal that the incorporation of simple
temporal self-attentions, coupled with rotary positional encoding, adequately
captures the temporal correlations inherent in video data. 2) Additionally, we
validate that the process of joint image-video fine-tuning plays a pivotal role
in producing high-quality and creative outcomes. To enhance the performance of
LaVie, we contribute a comprehensive and diverse video dataset named Vimeo25M,
consisting of 25 million text-video pairs that prioritize quality, diversity,
and aesthetic appeal. Extensive experiments demonstrate that LaVie achieves
state-of-the-art performance both quantitatively and qualitatively.
Furthermore, we showcase the versatility of pre-trained LaVie models in various
long video generation and personalized video synthesis applications.