ChatPaper.aiChatPaper

FramePainter : Doter l'édition d'images interactive de la diffusion vidéo Priors

FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors

January 14, 2025
Auteurs: Yabo Zhang, Xinpeng Zhou, Yihan Zeng, Hang Xu, Hui Li, Wangmeng Zuo
cs.AI

Résumé

L'édition interactive d'images permet aux utilisateurs de modifier des images grâce à des opérations d'interaction visuelle telles que le dessin, le clic et le glisser-déposer. Les méthodes existantes construisent de tels signaux de supervision à partir de vidéos, car elles capturent comment les objets changent avec diverses interactions physiques. Cependant, ces modèles sont généralement basés sur des modèles de diffusion texte-image, ce qui nécessite (i) des échantillons d'entraînement massifs et (ii) un encodeur de référence supplémentaire pour apprendre la dynamique du monde réel et la cohérence visuelle. Dans cet article, nous reformulons cette tâche en un problème de génération d'images-vidéos, afin d'hériter de puissantes connaissances préalables à la diffusion vidéo pour réduire les coûts d'entraînement et garantir la cohérence temporelle. Plus précisément, nous présentons FramePainter comme une instantiation efficace de cette formulation. Initié avec la Diffusion Vidéo Stable, il utilise uniquement un encodeur de contrôle léger et clairsemé pour injecter des signaux d'édition. En tenant compte des limites de l'attention temporelle dans la gestion des grands mouvements entre deux images, nous proposons en outre une attention correspondante pour agrandir le champ réceptif tout en favorisant une correspondance dense entre les jetons d'image édités et source. Nous mettons en avant l'efficacité et l'efficience de FramePainter à travers divers signaux d'édition : il surpasse nettement les méthodes précédentes de pointe avec beaucoup moins de données d'entraînement, atteignant une édition hautement fluide et cohérente des images, par exemple, ajuster automatiquement le reflet de la tasse. De plus, FramePainter présente également une généralisation exceptionnelle dans des scénarios non présents dans les vidéos du monde réel, par exemple, transformer le poisson-clown en une forme semblable à un requin. Notre code sera disponible sur https://github.com/YBYBZhang/FramePainter.
English
Interactive image editing allows users to modify images through visual interaction operations such as drawing, clicking, and dragging. Existing methods construct such supervision signals from videos, as they capture how objects change with various physical interactions. However, these models are usually built upon text-to-image diffusion models, so necessitate (i) massive training samples and (ii) an additional reference encoder to learn real-world dynamics and visual consistency. In this paper, we reformulate this task as an image-to-video generation problem, so that inherit powerful video diffusion priors to reduce training costs and ensure temporal consistency. Specifically, we introduce FramePainter as an efficient instantiation of this formulation. Initialized with Stable Video Diffusion, it only uses a lightweight sparse control encoder to inject editing signals. Considering the limitations of temporal attention in handling large motion between two frames, we further propose matching attention to enlarge the receptive field while encouraging dense correspondence between edited and source image tokens. We highlight the effectiveness and efficiency of FramePainter across various of editing signals: it domainantly outperforms previous state-of-the-art methods with far less training data, achieving highly seamless and coherent editing of images, \eg, automatically adjust the reflection of the cup. Moreover, FramePainter also exhibits exceptional generalization in scenarios not present in real-world videos, \eg, transform the clownfish into shark-like shape. Our code will be available at https://github.com/YBYBZhang/FramePainter.

Summary

AI-Generated Summary

PDF192January 15, 2025