Arrastra tu GAN: Manipulación Interactiva Basada en Puntos sobre la Variedad Generativa de Imágenes
Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
May 18, 2023
Autores: Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka, Christian Theobalt
cs.AI
Resumen
La síntesis de contenido visual que satisfaga las necesidades de los usuarios a menudo requiere un control flexible y preciso sobre la pose, forma, expresión y disposición de los objetos generados. Los enfoques existentes logran controlar las redes generativas adversarias (GANs) mediante datos de entrenamiento anotados manualmente o un modelo 3D previo, lo que suele carecer de flexibilidad, precisión y generalidad. En este trabajo, estudiamos una forma poderosa pero mucho menos explorada de controlar las GANs, que consiste en "arrastrar" cualquier punto de la imagen para alcanzar de manera precisa puntos objetivo de forma interactiva, como se muestra en la Fig.1. Para lograrlo, proponemos DragGAN, que consta de dos componentes principales: 1) una supervisión de movimiento basada en características que impulsa el punto de control a moverse hacia la posición objetivo, y 2) un nuevo enfoque de seguimiento de puntos que aprovecha las características discriminativas del generador para localizar continuamente la posición de los puntos de control. Con DragGAN, cualquier persona puede deformar una imagen con un control preciso sobre el destino de los píxeles, manipulando así la pose, forma, expresión y disposición de diversas categorías como animales, coches, humanos, paisajes, etc. Dado que estas manipulaciones se realizan en el manifold generativo aprendido de una GAN, tienden a producir resultados realistas incluso en escenarios desafiantes, como la alucinación de contenido ocluido y la deformación de formas que siguen consistentemente la rigidez del objeto. Tanto las comparaciones cualitativas como cuantitativas demuestran la ventaja de DragGAN sobre enfoques previos en las tareas de manipulación de imágenes y seguimiento de puntos. También mostramos la manipulación de imágenes reales mediante inversión de GAN.
English
Synthesizing visual content that meets users' needs often requires flexible
and precise controllability of the pose, shape, expression, and layout of the
generated objects. Existing approaches gain controllability of generative
adversarial networks (GANs) via manually annotated training data or a prior 3D
model, which often lack flexibility, precision, and generality. In this work,
we study a powerful yet much less explored way of controlling GANs, that is, to
"drag" any points of the image to precisely reach target points in a
user-interactive manner, as shown in Fig.1. To achieve this, we propose
DragGAN, which consists of two main components: 1) a feature-based motion
supervision that drives the handle point to move towards the target position,
and 2) a new point tracking approach that leverages the discriminative
generator features to keep localizing the position of the handle points.
Through DragGAN, anyone can deform an image with precise control over where
pixels go, thus manipulating the pose, shape, expression, and layout of diverse
categories such as animals, cars, humans, landscapes, etc. As these
manipulations are performed on the learned generative image manifold of a GAN,
they tend to produce realistic outputs even for challenging scenarios such as
hallucinating occluded content and deforming shapes that consistently follow
the object's rigidity. Both qualitative and quantitative comparisons
demonstrate the advantage of DragGAN over prior approaches in the tasks of
image manipulation and point tracking. We also showcase the manipulation of
real images through GAN inversion.