Factorized-Dreamer : Entraînement d'un générateur vidéo de haute qualité avec des données limitées et de faible qualité

papers.abstract

La génération de texte-à-vidéo (T2V) a suscité un intérêt considérable en raison de ses nombreuses applications dans la création, l'édition, l'amélioration et la traduction de vidéos, entre autres. Cependant, la synthèse de vidéos de haute qualité (HQ) est extrêmement complexe en raison de la diversité et de la complexité des mouvements présents dans le monde réel. La plupart des travaux existants peinent à résoudre ce problème en collectant des vidéos HQ à grande échelle, qui sont inaccessibles à la communauté. Dans ce travail, nous montrons que des données publiques limitées et de faible qualité (LQ) suffisent pour entraîner un générateur de vidéos HQ sans nécessiter de recaptionnage ou de réajustement. Nous décomposons le processus de génération T2V en deux étapes : la génération d'une image conditionnée par une description textuelle détaillée, et la synthèse de la vidéo conditionnée par l'image générée et une description concise des détails de mouvement. Plus précisément, nous présentons Factorized-Dreamer, un cadre spatio-temporel factorisé avec plusieurs conceptions critiques pour la génération T2V, incluant un adaptateur pour combiner les embeddings de texte et d'image, un module d'attention croisée pixel-aware pour capturer les informations au niveau des pixels, un encodeur de texte T5 pour mieux comprendre les descriptions de mouvement, et un PredictNet pour superviser les flux optiques. Nous introduisons également un plan de bruit, qui joue un rôle clé dans la garantie de la qualité et de la stabilité de la génération vidéo. Notre modèle réduit les exigences en termes de descriptions détaillées et de vidéos HQ, et peut être directement entraîné sur des ensembles de données LQ limités avec des captions bruyantes et succinctes comme WebVid-10M, atténuant ainsi largement le coût de collecte de paires vidéo-texte HQ à grande échelle. Des expériences approfondies dans une variété de tâches de génération T2V et d'image-à-vidéo démontrent l'efficacité de notre modèle Factorized-Dreamer. Nos codes sources sont disponibles à l'adresse https://github.com/yangxy/Factorized-Dreamer/.

English

Text-to-video (T2V) generation has gained significant attention due to its wide applications to video generation, editing, enhancement and translation, \etc. However, high-quality (HQ) video synthesis is extremely challenging because of the diverse and complex motions existed in real world. Most existing works struggle to address this problem by collecting large-scale HQ videos, which are inaccessible to the community. In this work, we show that publicly available limited and low-quality (LQ) data are sufficient to train a HQ video generator without recaptioning or finetuning. We factorize the whole T2V generation process into two steps: generating an image conditioned on a highly descriptive caption, and synthesizing the video conditioned on the generated image and a concise caption of motion details. Specifically, we present Factorized-Dreamer, a factorized spatiotemporal framework with several critical designs for T2V generation, including an adapter to combine text and image embeddings, a pixel-aware cross attention module to capture pixel-level image information, a T5 text encoder to better understand motion description, and a PredictNet to supervise optical flows. We further present a noise schedule, which plays a key role in ensuring the quality and stability of video generation. Our model lowers the requirements in detailed captions and HQ videos, and can be directly trained on limited LQ datasets with noisy and brief captions such as WebVid-10M, largely alleviating the cost to collect large-scale HQ video-text pairs. Extensive experiments in a variety of T2V and image-to-video generation tasks demonstrate the effectiveness of our proposed Factorized-Dreamer. Our source codes are available at https://github.com/yangxy/Factorized-Dreamer/.

Factorized-Dreamer : Entraînement d'un générateur vidéo de haute qualité avec des données limitées et de faible qualité

Factorized-Dreamer: Training A High-Quality Video Generator with Limited and Low-Quality Data

papers.abstract

Support