Drag Your GAN: Interaktive punktbasierte Manipulation auf der generativen Bildmannigfaltigkeit
Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
May 18, 2023
Autoren: Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka, Christian Theobalt
cs.AI
Zusammenfassung
Die Synthese von visuellen Inhalten, die den Bedürfnissen der Nutzer entsprechen, erfordert oft eine flexible und präzise Steuerbarkeit von Pose, Form, Ausdruck und Anordnung der generierten Objekte. Bisherige Ansätze erlangen die Steuerbarkeit von generativen adversariellen Netzwerken (GANs) durch manuell annotierte Trainingsdaten oder ein vordefiniertes 3D-Modell, was häufig an Flexibilität, Präzision und Allgemeingültigkeit mangelt. In dieser Arbeit untersuchen wir eine leistungsstarke, jedoch weit weniger erforschte Methode zur Steuerung von GANs, nämlich das „Ziehen“ beliebiger Punkte eines Bildes, um diese auf präzise Weise zu Zielpunkten in einer nutzerinteraktiven Art zu bewegen, wie in Abb. 1 dargestellt. Um dies zu erreichen, schlagen wir DragGAN vor, das aus zwei Hauptkomponenten besteht: 1) einer feature-basierten Bewegungssteuerung, die den Handhabungspunkt dazu anregt, sich in Richtung der Zielposition zu bewegen, und 2) einem neuen Punktverfolgungsansatz, der die diskriminativen Generator-Features nutzt, um die Position der Handhabungspunkte kontinuierlich zu lokalisieren. Mit DragGAN kann jeder ein Bild mit präziser Kontrolle über die Bewegung der Pixel verformen und so die Pose, Form, den Ausdruck und die Anordnung verschiedener Kategorien wie Tiere, Autos, Menschen, Landschaften usw. manipulieren. Da diese Manipulationen auf der gelernten generativen Bildmannigfaltigkeit eines GANs durchgeführt werden, neigen sie dazu, realistische Ergebnisse zu erzeugen, selbst in anspruchsvollen Szenarien wie der Halluzination verdeckter Inhalte und der Verformung von Formen, die konsequent der Starrheit des Objekts folgen. Sowohl qualitative als auch quantitative Vergleiche zeigen den Vorteil von DragGAN gegenüber früheren Ansätzen bei den Aufgaben der Bildmanipulation und Punktverfolgung. Wir demonstrieren auch die Manipulation realer Bilder durch GAN-Inversion.
English
Synthesizing visual content that meets users' needs often requires flexible
and precise controllability of the pose, shape, expression, and layout of the
generated objects. Existing approaches gain controllability of generative
adversarial networks (GANs) via manually annotated training data or a prior 3D
model, which often lack flexibility, precision, and generality. In this work,
we study a powerful yet much less explored way of controlling GANs, that is, to
"drag" any points of the image to precisely reach target points in a
user-interactive manner, as shown in Fig.1. To achieve this, we propose
DragGAN, which consists of two main components: 1) a feature-based motion
supervision that drives the handle point to move towards the target position,
and 2) a new point tracking approach that leverages the discriminative
generator features to keep localizing the position of the handle points.
Through DragGAN, anyone can deform an image with precise control over where
pixels go, thus manipulating the pose, shape, expression, and layout of diverse
categories such as animals, cars, humans, landscapes, etc. As these
manipulations are performed on the learned generative image manifold of a GAN,
they tend to produce realistic outputs even for challenging scenarios such as
hallucinating occluded content and deforming shapes that consistently follow
the object's rigidity. Both qualitative and quantitative comparisons
demonstrate the advantage of DragGAN over prior approaches in the tasks of
image manipulation and point tracking. We also showcase the manipulation of
real images through GAN inversion.