ChatPaper.aiChatPaper

FreeNoise : Diffusion vidéo plus longue sans réglage via la reprogrammation du bruit

FreeNoise: Tuning-Free Longer Video Diffusion Via Noise Rescheduling

October 23, 2023
Auteurs: Haonan Qiu, Menghan Xia, Yong Zhang, Yingqing He, Xintao Wang, Ying Shan, Ziwei Liu
cs.AI

Résumé

Avec la disponibilité de grands ensembles de données vidéo et les avancées des modèles de diffusion, la génération de vidéos pilotée par texte a réalisé des progrès significatifs. Cependant, les modèles existants de génération de vidéos sont généralement entraînés sur un nombre limité d'images, ce qui entraîne une incapacité à produire des vidéos longues de haute fidélité lors de l'inférence. De plus, ces modèles ne prennent en charge que des conditions de texte unique, alors que les scénarios réels nécessitent souvent des conditions de texte multiples à mesure que le contenu de la vidéo évolue dans le temps. Pour relever ces défis, cette étude explore le potentiel d'étendre la capacité pilotée par texte pour générer des vidéos plus longues conditionnées par plusieurs textes. 1) Nous analysons d'abord l'impact du bruit initial dans les modèles de diffusion vidéo. En nous appuyant sur cette observation, nous proposons FreeNoise, un paradigme sans réglage et efficace en temps pour améliorer les capacités génératives des modèles de diffusion vidéo pré-entraînés tout en préservant la cohérence du contenu. Plus précisément, au lieu d'initialiser des bruits pour toutes les images, nous réorganisons une séquence de bruits pour une corrélation à long terme et effectuons une attention temporelle sur ceux-ci via une fonction basée sur des fenêtres. 2) En outre, nous concevons une nouvelle méthode d'injection de mouvement pour soutenir la génération de vidéos conditionnées par plusieurs invites textuelles. Des expériences approfondies valident la supériorité de notre paradigme dans l'extension des capacités génératives des modèles de diffusion vidéo. Il est à noter que, par rapport à la méthode précédente la plus performante qui entraînait un coût temporel supplémentaire de 255 %, notre méthode n'engendre qu'un coût temporel négligeable d'environ 17 %. Des échantillons de vidéos générées sont disponibles sur notre site web : http://haonanqiu.com/projects/FreeNoise.html.
English
With the availability of large-scale video datasets and the advances of diffusion models, text-driven video generation has achieved substantial progress. However, existing video generation models are typically trained on a limited number of frames, resulting in the inability to generate high-fidelity long videos during inference. Furthermore, these models only support single-text conditions, whereas real-life scenarios often require multi-text conditions as the video content changes over time. To tackle these challenges, this study explores the potential of extending the text-driven capability to generate longer videos conditioned on multiple texts. 1) We first analyze the impact of initial noise in video diffusion models. Then building upon the observation of noise, we propose FreeNoise, a tuning-free and time-efficient paradigm to enhance the generative capabilities of pretrained video diffusion models while preserving content consistency. Specifically, instead of initializing noises for all frames, we reschedule a sequence of noises for long-range correlation and perform temporal attention over them by window-based function. 2) Additionally, we design a novel motion injection method to support the generation of videos conditioned on multiple text prompts. Extensive experiments validate the superiority of our paradigm in extending the generative capabilities of video diffusion models. It is noteworthy that compared with the previous best-performing method which brought about 255% extra time cost, our method incurs only negligible time cost of approximately 17%. Generated video samples are available at our website: http://haonanqiu.com/projects/FreeNoise.html.
PDF100December 15, 2024