ChatPaper.aiChatPaper

FreeNoise: Geração de Vídeos Mais Longos sem Ajuste via Reagendamento de Ruído

FreeNoise: Tuning-Free Longer Video Diffusion Via Noise Rescheduling

October 23, 2023
Autores: Haonan Qiu, Menghan Xia, Yong Zhang, Yingqing He, Xintao Wang, Ying Shan, Ziwei Liu
cs.AI

Resumo

Com a disponibilidade de grandes conjuntos de dados de vídeo e os avanços dos modelos de difusão, a geração de vídeos orientada por texto alcançou progressos significativos. No entanto, os modelos existentes de geração de vídeo são tipicamente treinados com um número limitado de quadros, resultando na incapacidade de gerar vídeos longos de alta fidelidade durante a inferência. Além disso, esses modelos suportam apenas condições de texto único, enquanto cenários da vida real frequentemente exigem múltiplas condições de texto, já que o conteúdo do vídeo muda ao longo do tempo. Para enfrentar esses desafios, este estudo explora o potencial de estender a capacidade orientada por texto para gerar vídeos mais longos condicionados a múltiplos textos. 1) Primeiramente, analisamos o impacto do ruído inicial em modelos de difusão de vídeo. Em seguida, com base na observação do ruído, propomos o FreeNoise, um paradigma sem ajuste e eficiente em termos de tempo para aprimorar as capacidades gerativas de modelos de difusão de vídeo pré-treinados, mantendo a consistência do conteúdo. Especificamente, em vez de inicializar ruídos para todos os quadros, reagendamos uma sequência de ruídos para correlação de longo alcance e realizamos atenção temporal sobre eles por meio de uma função baseada em janelas. 2) Adicionalmente, projetamos um novo método de injeção de movimento para suportar a geração de vídeos condicionados a múltiplos prompts de texto. Experimentos extensivos validam a superioridade do nosso paradigma em estender as capacidades gerativas de modelos de difusão de vídeo. É importante destacar que, em comparação com o método de melhor desempenho anterior, que acarretava um custo de tempo adicional de 255%, nosso método incorre em um custo de tempo insignificante de aproximadamente 17%. Amostras de vídeos gerados estão disponíveis em nosso site: http://haonanqiu.com/projects/FreeNoise.html.
English
With the availability of large-scale video datasets and the advances of diffusion models, text-driven video generation has achieved substantial progress. However, existing video generation models are typically trained on a limited number of frames, resulting in the inability to generate high-fidelity long videos during inference. Furthermore, these models only support single-text conditions, whereas real-life scenarios often require multi-text conditions as the video content changes over time. To tackle these challenges, this study explores the potential of extending the text-driven capability to generate longer videos conditioned on multiple texts. 1) We first analyze the impact of initial noise in video diffusion models. Then building upon the observation of noise, we propose FreeNoise, a tuning-free and time-efficient paradigm to enhance the generative capabilities of pretrained video diffusion models while preserving content consistency. Specifically, instead of initializing noises for all frames, we reschedule a sequence of noises for long-range correlation and perform temporal attention over them by window-based function. 2) Additionally, we design a novel motion injection method to support the generation of videos conditioned on multiple text prompts. Extensive experiments validate the superiority of our paradigm in extending the generative capabilities of video diffusion models. It is noteworthy that compared with the previous best-performing method which brought about 255% extra time cost, our method incurs only negligible time cost of approximately 17%. Generated video samples are available at our website: http://haonanqiu.com/projects/FreeNoise.html.
PDF100December 15, 2024