Drag Your GAN: Manipolazione Interattiva Basata su Punti sul Manifold Generativo delle Immagini
Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
May 18, 2023
Autori: Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka, Christian Theobalt
cs.AI
Abstract
La sintesi di contenuti visivi che soddisfino le esigenze degli utenti richiede spesso un controllo flessibile e preciso della posa, della forma, dell'espressione e del layout degli oggetti generati. Gli approcci esistenti ottengono il controllo delle reti generative avversarie (GAN) attraverso dati di addestramento annotati manualmente o un modello 3D preesistente, che spesso mancano di flessibilità, precisione e generalità. In questo lavoro, studiamo un metodo potente ma molto meno esplorato per controllare le GAN, ovvero "trascinare" qualsiasi punto dell'immagine per raggiungere con precisione punti target in modo interattivo per l'utente, come mostrato in Fig.1. Per raggiungere questo obiettivo, proponiamo DragGAN, che consiste in due componenti principali: 1) una supervisione del movimento basata su feature che spinge il punto di manipolazione a muoversi verso la posizione target, e 2) un nuovo approccio di tracciamento dei punti che sfrutta le feature discriminative del generatore per localizzare continuamente la posizione dei punti di manipolazione. Attraverso DragGAN, chiunque può deformare un'immagine con un controllo preciso su dove vanno i pixel, manipolando così la posa, la forma, l'espressione e il layout di categorie diverse come animali, automobili, esseri umani, paesaggi, ecc. Poiché queste manipolazioni vengono eseguite sulla varietà generativa appresa di una GAN, tendono a produrre output realistici anche per scenari complessi come l'allucinazione di contenuti occlusi e la deformazione di forme che seguono coerentemente la rigidità dell'oggetto. Sia i confronti qualitativi che quantitativi dimostrano il vantaggio di DragGAN rispetto agli approcci precedenti nei compiti di manipolazione delle immagini e tracciamento dei punti. Mostriamo inoltre la manipolazione di immagini reali attraverso l'inversione delle GAN.
English
Synthesizing visual content that meets users' needs often requires flexible
and precise controllability of the pose, shape, expression, and layout of the
generated objects. Existing approaches gain controllability of generative
adversarial networks (GANs) via manually annotated training data or a prior 3D
model, which often lack flexibility, precision, and generality. In this work,
we study a powerful yet much less explored way of controlling GANs, that is, to
"drag" any points of the image to precisely reach target points in a
user-interactive manner, as shown in Fig.1. To achieve this, we propose
DragGAN, which consists of two main components: 1) a feature-based motion
supervision that drives the handle point to move towards the target position,
and 2) a new point tracking approach that leverages the discriminative
generator features to keep localizing the position of the handle points.
Through DragGAN, anyone can deform an image with precise control over where
pixels go, thus manipulating the pose, shape, expression, and layout of diverse
categories such as animals, cars, humans, landscapes, etc. As these
manipulations are performed on the learned generative image manifold of a GAN,
they tend to produce realistic outputs even for challenging scenarios such as
hallucinating occluded content and deforming shapes that consistently follow
the object's rigidity. Both qualitative and quantitative comparisons
demonstrate the advantage of DragGAN over prior approaches in the tasks of
image manipulation and point tracking. We also showcase the manipulation of
real images through GAN inversion.