Ouroboros-Difusión: Explorando la Generación de Contenido Coherente en la Difusión de Videos Largos sin Ajustes.
Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion
January 15, 2025
Autores: Jingyuan Chen, Fuchen Long, Jie An, Zhaofan Qiu, Ting Yao, Jiebo Luo, Tao Mei
cs.AI
Resumen
La difusión de video primero en entrar, primero en salir (FIFO), construida sobre un modelo pre-entrenado de texto a video, ha surgido recientemente como un enfoque efectivo para la generación de videos largos sin necesidad de ajustes. Esta técnica mantiene una cola de fotogramas de video con ruido progresivamente creciente, produciendo continuamente fotogramas limpios en la cabeza de la cola mientras se encola ruido gaussiano en la cola. Sin embargo, la Difusión FIFO a menudo lucha por mantener consistencia temporal a largo plazo en los videos generados debido a la falta de modelado de correspondencia entre fotogramas. En este documento, proponemos Ouroboros-Diffusion, un nuevo marco de trabajo de desruido de video diseñado para mejorar la consistencia estructural y de contenido (sujeto), permitiendo la generación de videos consistentes de longitud arbitraria. Específicamente, introducimos una nueva técnica de muestreo latente en la cola de la cola para mejorar la consistencia estructural, asegurando transiciones perceptualmente suaves entre fotogramas. Para mejorar la consistencia de sujetos, ideamos un mecanismo de Atención Cruzada entre Fotogramas Consciente del Sujeto (SACFA), que alinea sujetos entre fotogramas dentro de segmentos cortos para lograr una mejor coherencia visual. Además, introducimos orientación autorrecurrente. Esta técnica aprovecha la información de todos los fotogramas limpios anteriores en la parte delantera de la cola para guiar el desruido de los fotogramas más ruidosos al final, fomentando una interacción rica y contextual de información global. Experimentos extensos de generación de video largo en el banco de pruebas VBench demuestran la superioridad de nuestra Ouroboros-Diffusion, especialmente en términos de consistencia de sujetos, suavidad de movimiento y consistencia temporal.
English
The first-in-first-out (FIFO) video diffusion, built on a pre-trained
text-to-video model, has recently emerged as an effective approach for
tuning-free long video generation. This technique maintains a queue of video
frames with progressively increasing noise, continuously producing clean frames
at the queue's head while Gaussian noise is enqueued at the tail. However,
FIFO-Diffusion often struggles to keep long-range temporal consistency in the
generated videos due to the lack of correspondence modeling across frames. In
this paper, we propose Ouroboros-Diffusion, a novel video denoising framework
designed to enhance structural and content (subject) consistency, enabling the
generation of consistent videos of arbitrary length. Specifically, we introduce
a new latent sampling technique at the queue tail to improve structural
consistency, ensuring perceptually smooth transitions among frames. To enhance
subject consistency, we devise a Subject-Aware Cross-Frame Attention (SACFA)
mechanism, which aligns subjects across frames within short segments to achieve
better visual coherence. Furthermore, we introduce self-recurrent guidance.
This technique leverages information from all previous cleaner frames at the
front of the queue to guide the denoising of noisier frames at the end,
fostering rich and contextual global information interaction. Extensive
experiments of long video generation on the VBench benchmark demonstrate the
superiority of our Ouroboros-Diffusion, particularly in terms of subject
consistency, motion smoothness, and temporal consistency.Summary
AI-Generated Summary