ChatPaper.aiChatPaper

Factorized-Dreamer: Het trainen van een hoogwaardige videogenerator met beperkte en laagkwalitatieve data

Factorized-Dreamer: Training A High-Quality Video Generator with Limited and Low-Quality Data

August 19, 2024
Auteurs: Tao Yang, Yangming Shi, Yunwen Huang, Feng Chen, Yin Zheng, Lei Zhang
cs.AI

Samenvatting

Text-to-video (T2V)-generatie heeft aanzienlijke aandacht gekregen vanwege de brede toepassingen op het gebied van videogeneratie, -bewerking, -verbetering en -vertaling, \etc. Het synthetiseren van hoogwaardige (HQ) video's is echter extreem uitdagend vanwege de diverse en complexe bewegingen die in de echte wereld voorkomen. De meeste bestaande werken worstelen met dit probleem door grootschalige HQ-video's te verzamelen, die voor de gemeenschap niet toegankelijk zijn. In dit werk tonen we aan dat publiek beschikbare beperkte en laagwaardige (LQ) gegevens voldoende zijn om een HQ-videogenerator te trainen zonder hercaptioning of finetuning. We splitsen het hele T2V-generatieproces op in twee stappen: het genereren van een afbeelding op basis van een zeer beschrijvende caption, en het synthetiseren van de video op basis van de gegenereerde afbeelding en een beknopte caption van bewegingsdetails. Specifiek presenteren we Factorized-Dreamer, een gefactoriseerd spatiotemporeel raamwerk met verschillende kritische ontwerpen voor T2V-generatie, waaronder een adapter om tekst- en afbeelding-embeddings te combineren, een pixel-aware cross attention module om pixelniveau afbeeldingsinformatie vast te leggen, een T5-tekstencoder om bewegingsbeschrijvingen beter te begrijpen, en een PredictNet om optische stromen te begeleiden. We presenteren verder een ruisschema, dat een sleutelrol speelt bij het waarborgen van de kwaliteit en stabiliteit van videogeneratie. Ons model verlaagt de vereisten voor gedetailleerde captions en HQ-video's, en kan direct worden getraind op beperkte LQ-datasets met ruwe en beknopte captions zoals WebVid-10M, waardoor de kosten voor het verzamelen van grootschalige HQ-video-tekstparen aanzienlijk worden verlicht. Uitgebreide experimenten in een verscheidenheid aan T2V- en image-to-video-generatietaken demonstreren de effectiviteit van onze voorgestelde Factorized-Dreamer. Onze broncodes zijn beschikbaar op https://github.com/yangxy/Factorized-Dreamer/.
English
Text-to-video (T2V) generation has gained significant attention due to its wide applications to video generation, editing, enhancement and translation, \etc. However, high-quality (HQ) video synthesis is extremely challenging because of the diverse and complex motions existed in real world. Most existing works struggle to address this problem by collecting large-scale HQ videos, which are inaccessible to the community. In this work, we show that publicly available limited and low-quality (LQ) data are sufficient to train a HQ video generator without recaptioning or finetuning. We factorize the whole T2V generation process into two steps: generating an image conditioned on a highly descriptive caption, and synthesizing the video conditioned on the generated image and a concise caption of motion details. Specifically, we present Factorized-Dreamer, a factorized spatiotemporal framework with several critical designs for T2V generation, including an adapter to combine text and image embeddings, a pixel-aware cross attention module to capture pixel-level image information, a T5 text encoder to better understand motion description, and a PredictNet to supervise optical flows. We further present a noise schedule, which plays a key role in ensuring the quality and stability of video generation. Our model lowers the requirements in detailed captions and HQ videos, and can be directly trained on limited LQ datasets with noisy and brief captions such as WebVid-10M, largely alleviating the cost to collect large-scale HQ video-text pairs. Extensive experiments in a variety of T2V and image-to-video generation tasks demonstrate the effectiveness of our proposed Factorized-Dreamer. Our source codes are available at https://github.com/yangxy/Factorized-Dreamer/.

Summary

AI-Generated Summary

PDF173November 19, 2024