Ouroboros-Diffusion : Exploration de la génération de contenu cohérent dans la diffusion vidéo longue sans réglage.

papers.abstract

La diffusion vidéo selon le principe du premier entré, premier sorti (FIFO), basée sur un modèle pré-entraîné de texte à vidéo, a récemment émergé comme une approche efficace pour la génération de vidéos longues sans réglage. Cette technique maintient une file de trames vidéo avec un bruit augmentant progressivement, produisant continuellement des trames propres à la tête de la file tandis que du bruit gaussien est ajouté à la queue. Cependant, la diffusion FIFO a souvent du mal à maintenir une cohérence temporelle à long terme dans les vidéos générées en raison du manque de modélisation de la correspondance entre les trames. Dans cet article, nous proposons Ouroboros-Diffusion, un nouveau cadre de débruitage vidéo conçu pour améliorer la cohérence structurelle et de contenu (sujet), permettant la génération de vidéos cohérentes de longueur arbitraire. Plus précisément, nous introduisons une nouvelle technique d'échantillonnage latent à la queue pour améliorer la cohérence structurelle, assurant des transitions perceptuellement fluides entre les trames. Pour améliorer la cohérence du sujet, nous concevons un mécanisme d'attention inter-trames conscient du sujet (SACFA), qui aligne les sujets à travers les trames au sein de courts segments pour obtenir une meilleure cohérence visuelle. De plus, nous introduisons un guidage auto-récurrent. Cette technique exploite les informations de toutes les trames plus propres précédentes à l'avant de la queue pour guider le débruitage des trames plus bruyantes à la fin, favorisant une interaction riche et contextuelle des informations globales. Des expériences approfondies de génération de vidéos longues sur le banc d'essai VBench démontrent la supériorité de notre Ouroboros-Diffusion, notamment en termes de cohérence du sujet, de fluidité du mouvement et de cohérence temporelle.

English

The first-in-first-out (FIFO) video diffusion, built on a pre-trained text-to-video model, has recently emerged as an effective approach for tuning-free long video generation. This technique maintains a queue of video frames with progressively increasing noise, continuously producing clean frames at the queue's head while Gaussian noise is enqueued at the tail. However, FIFO-Diffusion often struggles to keep long-range temporal consistency in the generated videos due to the lack of correspondence modeling across frames. In this paper, we propose Ouroboros-Diffusion, a novel video denoising framework designed to enhance structural and content (subject) consistency, enabling the generation of consistent videos of arbitrary length. Specifically, we introduce a new latent sampling technique at the queue tail to improve structural consistency, ensuring perceptually smooth transitions among frames. To enhance subject consistency, we devise a Subject-Aware Cross-Frame Attention (SACFA) mechanism, which aligns subjects across frames within short segments to achieve better visual coherence. Furthermore, we introduce self-recurrent guidance. This technique leverages information from all previous cleaner frames at the front of the queue to guide the denoising of noisier frames at the end, fostering rich and contextual global information interaction. Extensive experiments of long video generation on the VBench benchmark demonstrate the superiority of our Ouroboros-Diffusion, particularly in terms of subject consistency, motion smoothness, and temporal consistency.

Ouroboros-Diffusion : Exploration de la génération de contenu cohérent dans la diffusion vidéo longue sans réglage.

Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion

papers.abstract

Support