TokenFlow : Caractéristiques de diffusion cohérentes pour l'édition vidéo cohérente
TokenFlow: Consistent Diffusion Features for Consistent Video Editing
July 19, 2023
Auteurs: Michal Geyer, Omer Bar-Tal, Shai Bagon, Tali Dekel
cs.AI
Résumé
La révolution de l'IA générative s'est récemment étendue aux vidéos. Néanmoins, les modèles vidéo actuels les plus avancés restent en retard par rapport aux modèles d'images en termes de qualité visuelle et de contrôle utilisateur sur le contenu généré. Dans ce travail, nous présentons un cadre qui exploite la puissance d'un modèle de diffusion texte-à-image pour la tâche d'édition vidéo pilotée par texte. Plus précisément, étant donné une vidéo source et une invite texte cible, notre méthode génère une vidéo de haute qualité qui respecte le texte cible, tout en préservant la disposition spatiale et le mouvement de la vidéo d'entrée. Notre méthode repose sur une observation clé : la cohérence dans la vidéo éditée peut être obtenue en imposant une cohérence dans l'espace des caractéristiques de diffusion. Nous y parvenons en propageant explicitement les caractéristiques de diffusion en fonction des correspondances inter-images, facilement disponibles dans le modèle. Ainsi, notre cadre ne nécessite aucun apprentissage ou ajustement fin, et peut fonctionner en conjonction avec toute méthode d'édition texte-à-image prête à l'emploi. Nous démontrons des résultats d'édition de pointe sur une variété de vidéos du monde réel. Page web : https://diffusion-tokenflow.github.io/
English
The generative AI revolution has recently expanded to videos. Nevertheless,
current state-of-the-art video models are still lagging behind image models in
terms of visual quality and user control over the generated content. In this
work, we present a framework that harnesses the power of a text-to-image
diffusion model for the task of text-driven video editing. Specifically, given
a source video and a target text-prompt, our method generates a high-quality
video that adheres to the target text, while preserving the spatial layout and
motion of the input video. Our method is based on a key observation that
consistency in the edited video can be obtained by enforcing consistency in the
diffusion feature space. We achieve this by explicitly propagating diffusion
features based on inter-frame correspondences, readily available in the model.
Thus, our framework does not require any training or fine-tuning, and can work
in conjunction with any off-the-shelf text-to-image editing method. We
demonstrate state-of-the-art editing results on a variety of real-world videos.
Webpage: https://diffusion-tokenflow.github.io/