TokenFlow : Caractéristiques de diffusion cohérentes pour l'édition vidéo cohérente

papers.abstract

La révolution de l'IA générative s'est récemment étendue aux vidéos. Néanmoins, les modèles vidéo actuels les plus avancés restent en retard par rapport aux modèles d'images en termes de qualité visuelle et de contrôle utilisateur sur le contenu généré. Dans ce travail, nous présentons un cadre qui exploite la puissance d'un modèle de diffusion texte-à-image pour la tâche d'édition vidéo pilotée par texte. Plus précisément, étant donné une vidéo source et une invite texte cible, notre méthode génère une vidéo de haute qualité qui respecte le texte cible, tout en préservant la disposition spatiale et le mouvement de la vidéo d'entrée. Notre méthode repose sur une observation clé : la cohérence dans la vidéo éditée peut être obtenue en imposant une cohérence dans l'espace des caractéristiques de diffusion. Nous y parvenons en propageant explicitement les caractéristiques de diffusion en fonction des correspondances inter-images, facilement disponibles dans le modèle. Ainsi, notre cadre ne nécessite aucun apprentissage ou ajustement fin, et peut fonctionner en conjonction avec toute méthode d'édition texte-à-image prête à l'emploi. Nous démontrons des résultats d'édition de pointe sur une variété de vidéos du monde réel. Page web : https://diffusion-tokenflow.github.io/

English

The generative AI revolution has recently expanded to videos. Nevertheless, current state-of-the-art video models are still lagging behind image models in terms of visual quality and user control over the generated content. In this work, we present a framework that harnesses the power of a text-to-image diffusion model for the task of text-driven video editing. Specifically, given a source video and a target text-prompt, our method generates a high-quality video that adheres to the target text, while preserving the spatial layout and motion of the input video. Our method is based on a key observation that consistency in the edited video can be obtained by enforcing consistency in the diffusion feature space. We achieve this by explicitly propagating diffusion features based on inter-frame correspondences, readily available in the model. Thus, our framework does not require any training or fine-tuning, and can work in conjunction with any off-the-shelf text-to-image editing method. We demonstrate state-of-the-art editing results on a variety of real-world videos. Webpage: https://diffusion-tokenflow.github.io/

TokenFlow : Caractéristiques de diffusion cohérentes pour l'édition vidéo cohérente

TokenFlow: Consistent Diffusion Features for Consistent Video Editing

papers.abstract

Support