FreeNoise: Tuning-vrije langere videodiffusie via herplanning van ruis
FreeNoise: Tuning-Free Longer Video Diffusion Via Noise Rescheduling
October 23, 2023
Auteurs: Haonan Qiu, Menghan Xia, Yong Zhang, Yingqing He, Xintao Wang, Ying Shan, Ziwei Liu
cs.AI
Samenvatting
Met de beschikbaarheid van grootschalige videodatasets en de vooruitgang van diffusiemodellen heeft tekstgestuurde videogeneratie aanzienlijke vooruitgang geboekt. Bestaande videogeneratiemodellen worden echter meestal getraind op een beperkt aantal frames, wat resulteert in het onvermogen om hoogwaardige lange video's te genereren tijdens inferentie. Bovendien ondersteunen deze modellen alleen enkele-tekstcondities, terwijl real-life scenario's vaak meerdere-tekstcondities vereisen naarmate de videocontent in de tijd verandert. Om deze uitdagingen aan te pakken, onderzoekt deze studie het potentieel om de tekstgestuurde mogelijkheid uit te breiden om langere video's te genereren die zijn geconditioneerd op meerdere teksten. 1) We analyseren eerst de impact van initiële ruis in videodiffusiemodellen. Vervolgens bouwen we voort op de observatie van ruis en stellen we FreeNoise voor, een afstemmingsvrij en tijdsefficiënt paradigma om de generatieve mogelijkheden van vooraf getrainde videodiffusiemodellen te verbeteren terwijl de inhoudsconsistentie behouden blijft. Specifiek, in plaats van ruis voor alle frames te initialiseren, herplannen we een reeks ruis voor langeafstandscorrelatie en voeren we temporele aandacht uit over deze ruis door middel van een op vensters gebaseerde functie. 2) Daarnaast ontwerpen we een nieuwe methode voor bewegingstoediening om de generatie van video's die zijn geconditioneerd op meerdere tekstprompts te ondersteunen. Uitgebreide experimenten valideren de superioriteit van ons paradigma in het uitbreiden van de generatieve mogelijkheden van videodiffusiemodellen. Het is opmerkelijk dat, in vergelijking met de vorige best presterende methode die een extra tijdslast van 255% met zich meebracht, onze methode slechts een verwaarloosbare tijdslast van ongeveer 17% met zich meebrengt. Geproduceerde videovoorbeelden zijn beschikbaar op onze website: http://haonanqiu.com/projects/FreeNoise.html.
English
With the availability of large-scale video datasets and the advances of
diffusion models, text-driven video generation has achieved substantial
progress. However, existing video generation models are typically trained on a
limited number of frames, resulting in the inability to generate high-fidelity
long videos during inference. Furthermore, these models only support
single-text conditions, whereas real-life scenarios often require multi-text
conditions as the video content changes over time. To tackle these challenges,
this study explores the potential of extending the text-driven capability to
generate longer videos conditioned on multiple texts. 1) We first analyze the
impact of initial noise in video diffusion models. Then building upon the
observation of noise, we propose FreeNoise, a tuning-free and time-efficient
paradigm to enhance the generative capabilities of pretrained video diffusion
models while preserving content consistency. Specifically, instead of
initializing noises for all frames, we reschedule a sequence of noises for
long-range correlation and perform temporal attention over them by window-based
function. 2) Additionally, we design a novel motion injection method to support
the generation of videos conditioned on multiple text prompts. Extensive
experiments validate the superiority of our paradigm in extending the
generative capabilities of video diffusion models. It is noteworthy that
compared with the previous best-performing method which brought about 255%
extra time cost, our method incurs only negligible time cost of approximately
17%. Generated video samples are available at our website:
http://haonanqiu.com/projects/FreeNoise.html.