ChatPaper.aiChatPaper

Drag Your GAN : Manipulation interactive basée sur des points sur la variété générative d'images

Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

May 18, 2023
Auteurs: Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka, Christian Theobalt
cs.AI

Résumé

La synthèse de contenu visuel répondant aux besoins des utilisateurs nécessite souvent un contrôle flexible et précis de la pose, de la forme, de l'expression et de la disposition des objets générés. Les approches existantes obtiennent ce contrôle des réseaux antagonistes génératifs (GAN) via des données d'entraînement annotées manuellement ou un modèle 3D préexistant, ce qui manque souvent de flexibilité, de précision et de généralité. Dans ce travail, nous étudions une méthode puissante mais encore peu explorée pour contrôler les GAN, consistant à "faire glisser" n'importe quel point de l'image pour atteindre précisément des points cibles de manière interactive, comme illustré dans la Fig.1. Pour y parvenir, nous proposons DragGAN, qui se compose de deux éléments principaux : 1) une supervision du mouvement basée sur les caractéristiques, qui guide le point de manipulation vers la position cible, et 2) une nouvelle approche de suivi de points exploitant les caractéristiques discriminatives du générateur pour localiser continuellement la position des points de manipulation. Grâce à DragGAN, tout utilisateur peut déformer une image avec un contrôle précis du déplacement des pixels, manipulant ainsi la pose, la forme, l'expression et la disposition de catégories variées telles que les animaux, les voitures, les humains, les paysages, etc. Ces manipulations étant effectuées sur la variété générative apprise par un GAN, elles produisent des résultats réalistes même dans des scénarios complexes, comme l'hallucination de contenu occlus ou la déformation de formes respectant la rigidité des objets. Des comparaisons qualitatives et quantitatives démontrent l'avantage de DragGAN par rapport aux approches précédentes dans les tâches de manipulation d'images et de suivi de points. Nous illustrons également la manipulation d'images réelles via l'inversion de GAN.
English
Synthesizing visual content that meets users' needs often requires flexible and precise controllability of the pose, shape, expression, and layout of the generated objects. Existing approaches gain controllability of generative adversarial networks (GANs) via manually annotated training data or a prior 3D model, which often lack flexibility, precision, and generality. In this work, we study a powerful yet much less explored way of controlling GANs, that is, to "drag" any points of the image to precisely reach target points in a user-interactive manner, as shown in Fig.1. To achieve this, we propose DragGAN, which consists of two main components: 1) a feature-based motion supervision that drives the handle point to move towards the target position, and 2) a new point tracking approach that leverages the discriminative generator features to keep localizing the position of the handle points. Through DragGAN, anyone can deform an image with precise control over where pixels go, thus manipulating the pose, shape, expression, and layout of diverse categories such as animals, cars, humans, landscapes, etc. As these manipulations are performed on the learned generative image manifold of a GAN, they tend to produce realistic outputs even for challenging scenarios such as hallucinating occluded content and deforming shapes that consistently follow the object's rigidity. Both qualitative and quantitative comparisons demonstrate the advantage of DragGAN over prior approaches in the tasks of image manipulation and point tracking. We also showcase the manipulation of real images through GAN inversion.
PDF3774December 15, 2024