FreeLong: Geração de Vídeo Longo sem Treinamento com Atenção Temporal SpectralBlend
FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention
July 29, 2024
Autores: Yu Lu, Yuanzhi Liang, Linchao Zhu, Yi Yang
cs.AI
Resumo
Os modelos de difusão de vídeo têm feito progressos substanciais em várias aplicações de geração de vídeo. No entanto, treinar modelos para tarefas de geração de vídeo longo requer recursos computacionais e de dados significativos, representando um desafio para o desenvolvimento de modelos de difusão de vídeo longo. Este artigo investiga uma abordagem direta e sem treinamento para estender um modelo de difusão de vídeo curto existente (por exemplo, pré-treinado em vídeos de 16 quadros) para uma geração consistente de vídeo longo (por exemplo, 128 quadros). Nossa observação preliminar descobriu que aplicar diretamente o modelo de difusão de vídeo curto para gerar vídeos longos pode resultar em degradação severa na qualidade do vídeo. Uma investigação adicional revela que essa degradação é principalmente devido à distorção dos componentes de alta frequência em vídeos longos, caracterizada por uma diminuição nos componentes de alta frequência espaciais e um aumento nos componentes de alta frequência temporais. Motivados por isso, propomos uma solução inovadora chamada FreeLong para equilibrar a distribuição de frequência das características de vídeo longo durante o processo de remoção de ruído. O FreeLong combina os componentes de baixa frequência das características globais de vídeo, que encapsulam toda a sequência de vídeo, com os componentes de alta frequência das características de vídeo locais que se concentram em sub-sequências mais curtas de quadros. Esta abordagem mantém a consistência global ao incorporar detalhes espaciotemporais diversos e de alta qualidade dos vídeos locais, aprimorando tanto a consistência quanto a fidelidade da geração de vídeo longo. Avaliamos o FreeLong em vários modelos de difusão de vídeo base e observamos melhorias significativas. Além disso, nosso método suporta a geração coerente de múltiplas entradas, garantindo tanto a coerência visual quanto transições suaves entre cenas.
English
Video diffusion models have made substantial progress in various video
generation applications. However, training models for long video generation
tasks require significant computational and data resources, posing a challenge
to developing long video diffusion models. This paper investigates a
straightforward and training-free approach to extend an existing short video
diffusion model (e.g. pre-trained on 16-frame videos) for consistent long video
generation (e.g. 128 frames). Our preliminary observation has found that
directly applying the short video diffusion model to generate long videos can
lead to severe video quality degradation. Further investigation reveals that
this degradation is primarily due to the distortion of high-frequency
components in long videos, characterized by a decrease in spatial
high-frequency components and an increase in temporal high-frequency
components. Motivated by this, we propose a novel solution named FreeLong to
balance the frequency distribution of long video features during the denoising
process. FreeLong blends the low-frequency components of global video features,
which encapsulate the entire video sequence, with the high-frequency components
of local video features that focus on shorter subsequences of frames. This
approach maintains global consistency while incorporating diverse and
high-quality spatiotemporal details from local videos, enhancing both the
consistency and fidelity of long video generation. We evaluated FreeLong on
multiple base video diffusion models and observed significant improvements.
Additionally, our method supports coherent multi-prompt generation, ensuring
both visual coherence and seamless transitions between scenes.Summary
AI-Generated Summary