Drag Your GAN : Manipulation interactive basée sur des points sur la variété générative d'images
Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
May 18, 2023
Auteurs: Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka, Christian Theobalt
cs.AI
Résumé
La synthèse de contenu visuel répondant aux besoins des utilisateurs nécessite souvent un contrôle flexible et précis de la pose, de la forme, de l'expression et de la disposition des objets générés. Les approches existantes obtiennent ce contrôle des réseaux antagonistes génératifs (GAN) via des données d'entraînement annotées manuellement ou un modèle 3D préexistant, ce qui manque souvent de flexibilité, de précision et de généralité. Dans ce travail, nous étudions une méthode puissante mais encore peu explorée pour contrôler les GAN, consistant à "faire glisser" n'importe quel point de l'image pour atteindre précisément des points cibles de manière interactive, comme illustré dans la Fig.1. Pour y parvenir, nous proposons DragGAN, qui se compose de deux éléments principaux : 1) une supervision du mouvement basée sur les caractéristiques, qui guide le point de manipulation vers la position cible, et 2) une nouvelle approche de suivi de points exploitant les caractéristiques discriminatives du générateur pour localiser continuellement la position des points de manipulation. Grâce à DragGAN, tout utilisateur peut déformer une image avec un contrôle précis du déplacement des pixels, manipulant ainsi la pose, la forme, l'expression et la disposition de catégories variées telles que les animaux, les voitures, les humains, les paysages, etc. Ces manipulations étant effectuées sur la variété générative apprise par un GAN, elles produisent des résultats réalistes même dans des scénarios complexes, comme l'hallucination de contenu occlus ou la déformation de formes respectant la rigidité des objets. Des comparaisons qualitatives et quantitatives démontrent l'avantage de DragGAN par rapport aux approches précédentes dans les tâches de manipulation d'images et de suivi de points. Nous illustrons également la manipulation d'images réelles via l'inversion de GAN.
English
Synthesizing visual content that meets users' needs often requires flexible
and precise controllability of the pose, shape, expression, and layout of the
generated objects. Existing approaches gain controllability of generative
adversarial networks (GANs) via manually annotated training data or a prior 3D
model, which often lack flexibility, precision, and generality. In this work,
we study a powerful yet much less explored way of controlling GANs, that is, to
"drag" any points of the image to precisely reach target points in a
user-interactive manner, as shown in Fig.1. To achieve this, we propose
DragGAN, which consists of two main components: 1) a feature-based motion
supervision that drives the handle point to move towards the target position,
and 2) a new point tracking approach that leverages the discriminative
generator features to keep localizing the position of the handle points.
Through DragGAN, anyone can deform an image with precise control over where
pixels go, thus manipulating the pose, shape, expression, and layout of diverse
categories such as animals, cars, humans, landscapes, etc. As these
manipulations are performed on the learned generative image manifold of a GAN,
they tend to produce realistic outputs even for challenging scenarios such as
hallucinating occluded content and deforming shapes that consistently follow
the object's rigidity. Both qualitative and quantitative comparisons
demonstrate the advantage of DragGAN over prior approaches in the tasks of
image manipulation and point tracking. We also showcase the manipulation of
real images through GAN inversion.