Ouroboros-Difusión: Explorando la Generación de Contenido Coherente en la Difusión de Videos Largos sin Ajustes.

Resumen

La difusión de video primero en entrar, primero en salir (FIFO), construida sobre un modelo pre-entrenado de texto a video, ha surgido recientemente como un enfoque efectivo para la generación de videos largos sin necesidad de ajustes. Esta técnica mantiene una cola de fotogramas de video con ruido progresivamente creciente, produciendo continuamente fotogramas limpios en la cabeza de la cola mientras se encola ruido gaussiano en la cola. Sin embargo, la Difusión FIFO a menudo lucha por mantener consistencia temporal a largo plazo en los videos generados debido a la falta de modelado de correspondencia entre fotogramas. En este documento, proponemos Ouroboros-Diffusion, un nuevo marco de trabajo de desruido de video diseñado para mejorar la consistencia estructural y de contenido (sujeto), permitiendo la generación de videos consistentes de longitud arbitraria. Específicamente, introducimos una nueva técnica de muestreo latente en la cola de la cola para mejorar la consistencia estructural, asegurando transiciones perceptualmente suaves entre fotogramas. Para mejorar la consistencia de sujetos, ideamos un mecanismo de Atención Cruzada entre Fotogramas Consciente del Sujeto (SACFA), que alinea sujetos entre fotogramas dentro de segmentos cortos para lograr una mejor coherencia visual. Además, introducimos orientación autorrecurrente. Esta técnica aprovecha la información de todos los fotogramas limpios anteriores en la parte delantera de la cola para guiar el desruido de los fotogramas más ruidosos al final, fomentando una interacción rica y contextual de información global. Experimentos extensos de generación de video largo en el banco de pruebas VBench demuestran la superioridad de nuestra Ouroboros-Diffusion, especialmente en términos de consistencia de sujetos, suavidad de movimiento y consistencia temporal.

English

The first-in-first-out (FIFO) video diffusion, built on a pre-trained text-to-video model, has recently emerged as an effective approach for tuning-free long video generation. This technique maintains a queue of video frames with progressively increasing noise, continuously producing clean frames at the queue's head while Gaussian noise is enqueued at the tail. However, FIFO-Diffusion often struggles to keep long-range temporal consistency in the generated videos due to the lack of correspondence modeling across frames. In this paper, we propose Ouroboros-Diffusion, a novel video denoising framework designed to enhance structural and content (subject) consistency, enabling the generation of consistent videos of arbitrary length. Specifically, we introduce a new latent sampling technique at the queue tail to improve structural consistency, ensuring perceptually smooth transitions among frames. To enhance subject consistency, we devise a Subject-Aware Cross-Frame Attention (SACFA) mechanism, which aligns subjects across frames within short segments to achieve better visual coherence. Furthermore, we introduce self-recurrent guidance. This technique leverages information from all previous cleaner frames at the front of the queue to guide the denoising of noisier frames at the end, fostering rich and contextual global information interaction. Extensive experiments of long video generation on the VBench benchmark demonstrate the superiority of our Ouroboros-Diffusion, particularly in terms of subject consistency, motion smoothness, and temporal consistency.

Ouroboros-Difusión: Explorando la Generación de Contenido Coherente en la Difusión de Videos Largos sin Ajustes.

Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion

Resumen

Support