Factorized-Dreamer : Entraînement d'un générateur vidéo de haute qualité avec des données limitées et de faible qualité
Factorized-Dreamer: Training A High-Quality Video Generator with Limited and Low-Quality Data
August 19, 2024
Auteurs: Tao Yang, Yangming Shi, Yunwen Huang, Feng Chen, Yin Zheng, Lei Zhang
cs.AI
Résumé
La génération de texte-à-vidéo (T2V) a suscité un intérêt considérable en raison de ses nombreuses applications dans la création, l'édition, l'amélioration et la traduction de vidéos, entre autres. Cependant, la synthèse de vidéos de haute qualité (HQ) est extrêmement complexe en raison de la diversité et de la complexité des mouvements présents dans le monde réel. La plupart des travaux existants peinent à résoudre ce problème en collectant des vidéos HQ à grande échelle, qui sont inaccessibles à la communauté. Dans ce travail, nous montrons que des données publiques limitées et de faible qualité (LQ) suffisent pour entraîner un générateur de vidéos HQ sans nécessiter de recaptionnage ou de réajustement. Nous décomposons le processus de génération T2V en deux étapes : la génération d'une image conditionnée par une description textuelle détaillée, et la synthèse de la vidéo conditionnée par l'image générée et une description concise des détails de mouvement. Plus précisément, nous présentons Factorized-Dreamer, un cadre spatio-temporel factorisé avec plusieurs conceptions critiques pour la génération T2V, incluant un adaptateur pour combiner les embeddings de texte et d'image, un module d'attention croisée pixel-aware pour capturer les informations au niveau des pixels, un encodeur de texte T5 pour mieux comprendre les descriptions de mouvement, et un PredictNet pour superviser les flux optiques. Nous introduisons également un plan de bruit, qui joue un rôle clé dans la garantie de la qualité et de la stabilité de la génération vidéo. Notre modèle réduit les exigences en termes de descriptions détaillées et de vidéos HQ, et peut être directement entraîné sur des ensembles de données LQ limités avec des captions bruyantes et succinctes comme WebVid-10M, atténuant ainsi largement le coût de collecte de paires vidéo-texte HQ à grande échelle. Des expériences approfondies dans une variété de tâches de génération T2V et d'image-à-vidéo démontrent l'efficacité de notre modèle Factorized-Dreamer. Nos codes sources sont disponibles à l'adresse https://github.com/yangxy/Factorized-Dreamer/.
English
Text-to-video (T2V) generation has gained significant attention due to its
wide applications to video generation, editing, enhancement and translation,
\etc. However, high-quality (HQ) video synthesis is extremely challenging
because of the diverse and complex motions existed in real world. Most existing
works struggle to address this problem by collecting large-scale HQ videos,
which are inaccessible to the community. In this work, we show that publicly
available limited and low-quality (LQ) data are sufficient to train a HQ video
generator without recaptioning or finetuning. We factorize the whole T2V
generation process into two steps: generating an image conditioned on a highly
descriptive caption, and synthesizing the video conditioned on the generated
image and a concise caption of motion details. Specifically, we present
Factorized-Dreamer, a factorized spatiotemporal framework with several
critical designs for T2V generation, including an adapter to combine text and
image embeddings, a pixel-aware cross attention module to capture pixel-level
image information, a T5 text encoder to better understand motion description,
and a PredictNet to supervise optical flows. We further present a noise
schedule, which plays a key role in ensuring the quality and stability of video
generation. Our model lowers the requirements in detailed captions and HQ
videos, and can be directly trained on limited LQ datasets with noisy and brief
captions such as WebVid-10M, largely alleviating the cost to collect
large-scale HQ video-text pairs. Extensive experiments in a variety of T2V and
image-to-video generation tasks demonstrate the effectiveness of our proposed
Factorized-Dreamer. Our source codes are available at
https://github.com/yangxy/Factorized-Dreamer/.Summary
AI-Generated Summary