FreeLong: Training-vrije lange videogeneratie met SpectralBlend Temporele aandacht
FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention
July 29, 2024
Auteurs: Yu Lu, Yuanzhi Liang, Linchao Zhu, Yi Yang
cs.AI
Samenvatting
Videodiffusiemodellen hebben aanzienlijke vooruitgang geboekt in diverse videogeneratietoepassingen. Het trainen van modellen voor taken waarbij lange video's gegenereerd moeten worden, vereist echter aanzienlijke rekenkundige en dataresources, wat een uitdaging vormt voor de ontwikkeling van lange videodiffusiemodellen. Dit artikel onderzoekt een eenvoudige en trainingsvrije aanpak om een bestaand kort videodiffusiemodel (bijvoorbeeld vooraf getraind op 16-frame video's) uit te breiden voor consistente lange videogeneratie (bijvoorbeeld 128 frames). Onze eerste observatie heeft aangetoond dat het direct toepassen van het korte videodiffusiemodel voor het genereren van lange video's kan leiden tot een ernstige verslechtering van de videokwaliteit. Verder onderzoek onthult dat deze verslechtering voornamelijk wordt veroorzaakt door de vervorming van hoogfrequente componenten in lange video's, gekenmerkt door een afname van ruimtelijke hoogfrequente componenten en een toename van temporele hoogfrequente componenten. Gemotiveerd door dit inzicht, stellen we een nieuwe oplossing voor genaamd FreeLong om de frequentieverdeling van lange videokenmerken tijdens het denoisingsproces in balans te brengen. FreeLong combineert de laagfrequente componenten van globale videokenmerken, die de gehele videosequentie omvatten, met de hoogfrequente componenten van lokale videokenmerken die zich richten op kortere subreeksen van frames. Deze aanpak behoudt globale consistentie terwijl diverse en hoogwaardige ruimtelijk-temporele details van lokale video's worden geïntegreerd, wat zowel de consistentie als de getrouwheid van lange videogeneratie verbetert. We hebben FreeLong geëvalueerd op meerdere basisvideodiffusiemodellen en significante verbeteringen waargenomen. Bovendien ondersteunt onze methode coherente multi-promptgeneratie, waardoor zowel visuele samenhang als naadloze overgangen tussen scènes worden gewaarborgd.
English
Video diffusion models have made substantial progress in various video
generation applications. However, training models for long video generation
tasks require significant computational and data resources, posing a challenge
to developing long video diffusion models. This paper investigates a
straightforward and training-free approach to extend an existing short video
diffusion model (e.g. pre-trained on 16-frame videos) for consistent long video
generation (e.g. 128 frames). Our preliminary observation has found that
directly applying the short video diffusion model to generate long videos can
lead to severe video quality degradation. Further investigation reveals that
this degradation is primarily due to the distortion of high-frequency
components in long videos, characterized by a decrease in spatial
high-frequency components and an increase in temporal high-frequency
components. Motivated by this, we propose a novel solution named FreeLong to
balance the frequency distribution of long video features during the denoising
process. FreeLong blends the low-frequency components of global video features,
which encapsulate the entire video sequence, with the high-frequency components
of local video features that focus on shorter subsequences of frames. This
approach maintains global consistency while incorporating diverse and
high-quality spatiotemporal details from local videos, enhancing both the
consistency and fidelity of long video generation. We evaluated FreeLong on
multiple base video diffusion models and observed significant improvements.
Additionally, our method supports coherent multi-prompt generation, ensuring
both visual coherence and seamless transitions between scenes.