ChatPaper.aiChatPaper

FramePainter: Interactieve beeldbewerking voorzien van videodiffusiepriors

FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors

January 14, 2025
Auteurs: Yabo Zhang, Xinpeng Zhou, Yihan Zeng, Hang Xu, Hui Li, Wangmeng Zuo
cs.AI

Samenvatting

Interactieve beeldbewerking stelt gebruikers in staat om afbeeldingen te wijzigen door visuele interactiehandelingen zoals tekenen, klikken en slepen. Bestaande methoden construeren dergelijke toezichtsignalen uit video's, omdat ze vastleggen hoe objecten veranderen met verschillende fysieke interacties. Deze modellen zijn echter meestal gebaseerd op tekst-naar-beeld diffusiemodellen, waardoor ze (i) enorme trainingsvoorbeelden en (ii) een aanvullende referentie-encoder vereisen om de dynamiek en visuele consistentie van de echte wereld te leren. In dit artikel hervormen we deze taak als een probleem van beeld-naar-video generatie, zodat we krachtige videodiffusieprioriteiten erven om trainingskosten te verlagen en temporele consistentie te waarborgen. Specifiek introduceren we FramePainter als een efficiënte instantiatie van deze formulering. Geïnitialiseerd met Stable Video Diffusion, maakt het alleen gebruik van een lichtgewicht spaarzame besturingsencoder om bewerkingssignalen in te voeren. Gezien de beperkingen van temporele aandacht bij het omgaan met grote bewegingen tussen twee frames, stellen we verder voor om overeenkomstige aandacht te gebruiken om het receptieve veld te vergroten en tegelijkertijd dichte overeenkomsten tussen bewerkte en bronbeeldtokens aan te moedigen. We benadrukken de effectiviteit en efficiëntie van FramePainter bij verschillende bewerkingssignalen: het presteert aanzienlijk beter dan eerdere state-of-the-art methoden met veel minder trainingsgegevens, en bereikt zeer naadloze en coherente bewerking van afbeeldingen, bijvoorbeeld automatisch de reflectie van de beker aanpassen. Bovendien vertoont FramePainter ook uitzonderlijke generalisatie in scenario's die niet aanwezig zijn in echte wereldvideo's, bijvoorbeeld de clownvis transformeren in een haaiachtige vorm. Onze code zal beschikbaar zijn op https://github.com/YBYBZhang/FramePainter.
English
Interactive image editing allows users to modify images through visual interaction operations such as drawing, clicking, and dragging. Existing methods construct such supervision signals from videos, as they capture how objects change with various physical interactions. However, these models are usually built upon text-to-image diffusion models, so necessitate (i) massive training samples and (ii) an additional reference encoder to learn real-world dynamics and visual consistency. In this paper, we reformulate this task as an image-to-video generation problem, so that inherit powerful video diffusion priors to reduce training costs and ensure temporal consistency. Specifically, we introduce FramePainter as an efficient instantiation of this formulation. Initialized with Stable Video Diffusion, it only uses a lightweight sparse control encoder to inject editing signals. Considering the limitations of temporal attention in handling large motion between two frames, we further propose matching attention to enlarge the receptive field while encouraging dense correspondence between edited and source image tokens. We highlight the effectiveness and efficiency of FramePainter across various of editing signals: it domainantly outperforms previous state-of-the-art methods with far less training data, achieving highly seamless and coherent editing of images, \eg, automatically adjust the reflection of the cup. Moreover, FramePainter also exhibits exceptional generalization in scenarios not present in real-world videos, \eg, transform the clownfish into shark-like shape. Our code will be available at https://github.com/YBYBZhang/FramePainter.

Summary

AI-Generated Summary

PDF192January 15, 2025