Ouroboros-Diffusion : Exploration de la génération de contenu cohérent dans la diffusion vidéo longue sans réglage.
Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion
January 15, 2025
Auteurs: Jingyuan Chen, Fuchen Long, Jie An, Zhaofan Qiu, Ting Yao, Jiebo Luo, Tao Mei
cs.AI
Résumé
La diffusion vidéo selon le principe du premier entré, premier sorti (FIFO), basée sur un modèle pré-entraîné de texte à vidéo, a récemment émergé comme une approche efficace pour la génération de vidéos longues sans réglage. Cette technique maintient une file de trames vidéo avec un bruit augmentant progressivement, produisant continuellement des trames propres à la tête de la file tandis que du bruit gaussien est ajouté à la queue. Cependant, la diffusion FIFO a souvent du mal à maintenir une cohérence temporelle à long terme dans les vidéos générées en raison du manque de modélisation de la correspondance entre les trames. Dans cet article, nous proposons Ouroboros-Diffusion, un nouveau cadre de débruitage vidéo conçu pour améliorer la cohérence structurelle et de contenu (sujet), permettant la génération de vidéos cohérentes de longueur arbitraire. Plus précisément, nous introduisons une nouvelle technique d'échantillonnage latent à la queue pour améliorer la cohérence structurelle, assurant des transitions perceptuellement fluides entre les trames. Pour améliorer la cohérence du sujet, nous concevons un mécanisme d'attention inter-trames conscient du sujet (SACFA), qui aligne les sujets à travers les trames au sein de courts segments pour obtenir une meilleure cohérence visuelle. De plus, nous introduisons un guidage auto-récurrent. Cette technique exploite les informations de toutes les trames plus propres précédentes à l'avant de la queue pour guider le débruitage des trames plus bruyantes à la fin, favorisant une interaction riche et contextuelle des informations globales. Des expériences approfondies de génération de vidéos longues sur le banc d'essai VBench démontrent la supériorité de notre Ouroboros-Diffusion, notamment en termes de cohérence du sujet, de fluidité du mouvement et de cohérence temporelle.
English
The first-in-first-out (FIFO) video diffusion, built on a pre-trained
text-to-video model, has recently emerged as an effective approach for
tuning-free long video generation. This technique maintains a queue of video
frames with progressively increasing noise, continuously producing clean frames
at the queue's head while Gaussian noise is enqueued at the tail. However,
FIFO-Diffusion often struggles to keep long-range temporal consistency in the
generated videos due to the lack of correspondence modeling across frames. In
this paper, we propose Ouroboros-Diffusion, a novel video denoising framework
designed to enhance structural and content (subject) consistency, enabling the
generation of consistent videos of arbitrary length. Specifically, we introduce
a new latent sampling technique at the queue tail to improve structural
consistency, ensuring perceptually smooth transitions among frames. To enhance
subject consistency, we devise a Subject-Aware Cross-Frame Attention (SACFA)
mechanism, which aligns subjects across frames within short segments to achieve
better visual coherence. Furthermore, we introduce self-recurrent guidance.
This technique leverages information from all previous cleaner frames at the
front of the queue to guide the denoising of noisier frames at the end,
fostering rich and contextual global information interaction. Extensive
experiments of long video generation on the VBench benchmark demonstrate the
superiority of our Ouroboros-Diffusion, particularly in terms of subject
consistency, motion smoothness, and temporal consistency.Summary
AI-Generated Summary