ChatPaper.aiChatPaper

Drag Your GAN: Interactieve puntgebaseerde manipulatie op het generatieve beeldmanifold

Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

May 18, 2023
Auteurs: Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka, Christian Theobalt
cs.AI

Samenvatting

Het synthetiseren van visuele inhoud die aan de behoeften van gebruikers voldoet, vereist vaak flexibele en precieze controleerbaarheid van de pose, vorm, expressie en lay-out van de gegenereerde objecten. Bestaande benaderingen verkrijgen controleerbaarheid van generatieve adversariële netwerken (GANs) via handmatig geannoteerde trainingsdata of een vooraf bestaand 3D-model, wat vaak flexibiliteit, precisie en algemeenheid mist. In dit werk bestuderen we een krachtige maar veel minder verkende manier om GANs te controleren, namelijk door willekeurige punten van de afbeelding te "verslepen" om op een gebruikersinteractieve manier precies doelpunten te bereiken, zoals getoond in Fig.1. Om dit te bereiken, stellen we DragGAN voor, dat uit twee hoofdcomponenten bestaat: 1) een op kenmerken gebaseerde bewegingssupervisie die het handvatpunt naar de doelpositie stuurt, en 2) een nieuwe puntvolgbenedering die gebruikmaakt van de discriminerende generatorkenmerken om de positie van de handvatpunten te blijven lokaliseren. Met DragGAN kan iedereen een afbeelding vervormen met precieze controle over waar pixels naartoe gaan, waardoor de pose, vorm, expressie en lay-out van diverse categorieën zoals dieren, auto's, mensen, landschappen, enz. gemanipuleerd kunnen worden. Omdat deze manipulaties worden uitgevoerd op de geleerde generatieve beeldvariëteit van een GAN, produceren ze vaak realistische uitvoer, zelfs voor uitdagende scenario's zoals het hallucineren van verborgen inhoud en het vervormen van vormen die consistent de rigiditeit van het object volgen. Zowel kwalitatieve als kwantitatieve vergelijkingen tonen het voordeel van DragGAN aan ten opzichte van eerdere benaderingen in de taken van beeldmanipulatie en puntvolging. We demonstreren ook de manipulatie van echte afbeeldingen via GAN-inversie.
English
Synthesizing visual content that meets users' needs often requires flexible and precise controllability of the pose, shape, expression, and layout of the generated objects. Existing approaches gain controllability of generative adversarial networks (GANs) via manually annotated training data or a prior 3D model, which often lack flexibility, precision, and generality. In this work, we study a powerful yet much less explored way of controlling GANs, that is, to "drag" any points of the image to precisely reach target points in a user-interactive manner, as shown in Fig.1. To achieve this, we propose DragGAN, which consists of two main components: 1) a feature-based motion supervision that drives the handle point to move towards the target position, and 2) a new point tracking approach that leverages the discriminative generator features to keep localizing the position of the handle points. Through DragGAN, anyone can deform an image with precise control over where pixels go, thus manipulating the pose, shape, expression, and layout of diverse categories such as animals, cars, humans, landscapes, etc. As these manipulations are performed on the learned generative image manifold of a GAN, they tend to produce realistic outputs even for challenging scenarios such as hallucinating occluded content and deforming shapes that consistently follow the object's rigidity. Both qualitative and quantitative comparisons demonstrate the advantage of DragGAN over prior approaches in the tasks of image manipulation and point tracking. We also showcase the manipulation of real images through GAN inversion.
PDF3774December 15, 2024