FreeNoise: Difusión de Video Más Largo Sin Ajustes mediante Reprogramación de Ruido
FreeNoise: Tuning-Free Longer Video Diffusion Via Noise Rescheduling
October 23, 2023
Autores: Haonan Qiu, Menghan Xia, Yong Zhang, Yingqing He, Xintao Wang, Ying Shan, Ziwei Liu
cs.AI
Resumen
Con la disponibilidad de grandes conjuntos de datos de video y los avances en los modelos de difusión, la generación de videos impulsada por texto ha logrado un progreso sustancial. Sin embargo, los modelos existentes de generación de video suelen entrenarse con un número limitado de fotogramas, lo que resulta en la incapacidad de generar videos largos de alta fidelidad durante la inferencia. Además, estos modelos solo admiten condiciones de texto único, mientras que los escenarios de la vida real a menudo requieren condiciones de múltiples textos a medida que el contenido del video cambia con el tiempo. Para abordar estos desafíos, este estudio explora el potencial de extender la capacidad impulsada por texto para generar videos más largos condicionados por múltiples textos. 1) Primero analizamos el impacto del ruido inicial en los modelos de difusión de video. Luego, basándonos en la observación del ruido, proponemos FreeNoise, un paradigma sin ajustes y eficiente en tiempo para mejorar las capacidades generativas de los modelos de difusión de video preentrenados mientras se preserva la consistencia del contenido. Específicamente, en lugar de inicializar ruidos para todos los fotogramas, reprogramamos una secuencia de ruidos para la correlación a largo plazo y realizamos atención temporal sobre ellos mediante una función basada en ventanas. 2) Además, diseñamos un novedoso método de inyección de movimiento para apoyar la generación de videos condicionados por múltiples indicaciones de texto. Experimentos extensos validan la superioridad de nuestro paradigma en la extensión de las capacidades generativas de los modelos de difusión de video. Es notable que, en comparación con el método de mejor rendimiento anterior que implicaba un costo de tiempo adicional del 255%, nuestro método incurre en un costo de tiempo insignificante de aproximadamente el 17%. Las muestras de video generadas están disponibles en nuestro sitio web: http://haonanqiu.com/projects/FreeNoise.html.
English
With the availability of large-scale video datasets and the advances of
diffusion models, text-driven video generation has achieved substantial
progress. However, existing video generation models are typically trained on a
limited number of frames, resulting in the inability to generate high-fidelity
long videos during inference. Furthermore, these models only support
single-text conditions, whereas real-life scenarios often require multi-text
conditions as the video content changes over time. To tackle these challenges,
this study explores the potential of extending the text-driven capability to
generate longer videos conditioned on multiple texts. 1) We first analyze the
impact of initial noise in video diffusion models. Then building upon the
observation of noise, we propose FreeNoise, a tuning-free and time-efficient
paradigm to enhance the generative capabilities of pretrained video diffusion
models while preserving content consistency. Specifically, instead of
initializing noises for all frames, we reschedule a sequence of noises for
long-range correlation and perform temporal attention over them by window-based
function. 2) Additionally, we design a novel motion injection method to support
the generation of videos conditioned on multiple text prompts. Extensive
experiments validate the superiority of our paradigm in extending the
generative capabilities of video diffusion models. It is noteworthy that
compared with the previous best-performing method which brought about 255%
extra time cost, our method incurs only negligible time cost of approximately
17%. Generated video samples are available at our website:
http://haonanqiu.com/projects/FreeNoise.html.