Drag Your GAN: Manipulação Interativa Baseada em Pontos na Variedade de Imagens Gerativas
Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
May 18, 2023
Autores: Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka, Christian Theobalt
cs.AI
Resumo
Sintetizar conteúdo visual que atenda às necessidades dos usuários frequentemente requer controle flexível e preciso sobre a pose, forma, expressão e layout dos objetos gerados. As abordagens existentes obtêm controle sobre redes adversariais generativas (GANs) por meio de dados de treinamento anotados manualmente ou de um modelo 3D pré-existente, que muitas vezes carecem de flexibilidade, precisão e generalidade. Neste trabalho, estudamos uma forma poderosa, porém muito menos explorada, de controlar GANs, que consiste em "arrastar" quaisquer pontos da imagem para alcançar pontos-alvo de maneira precisa e interativa, conforme ilustrado na Fig.1. Para alcançar isso, propomos o DragGAN, que consiste em dois componentes principais: 1) uma supervisão de movimento baseada em características que direciona o ponto de manipulação a se mover em direção à posição-alvo, e 2) uma nova abordagem de rastreamento de pontos que utiliza as características discriminativas do gerador para localizar continuamente a posição dos pontos de manipulação. Com o DragGAN, qualquer pessoa pode deformar uma imagem com controle preciso sobre o destino dos pixels, manipulando assim a pose, forma, expressão e layout de diversas categorias, como animais, carros, humanos, paisagens, etc. Como essas manipulações são realizadas na variedade gerativa de imagens aprendida por uma GAN, elas tendem a produzir resultados realistas, mesmo em cenários desafiadores, como a alucinação de conteúdo ocluído e a deformação de formas que seguem consistentemente a rigidez do objeto. Comparações qualitativas e quantitativas demonstram a vantagem do DragGAN sobre abordagens anteriores nas tarefas de manipulação de imagens e rastreamento de pontos. Também exemplificamos a manipulação de imagens reais por meio de inversão de GAN.
English
Synthesizing visual content that meets users' needs often requires flexible
and precise controllability of the pose, shape, expression, and layout of the
generated objects. Existing approaches gain controllability of generative
adversarial networks (GANs) via manually annotated training data or a prior 3D
model, which often lack flexibility, precision, and generality. In this work,
we study a powerful yet much less explored way of controlling GANs, that is, to
"drag" any points of the image to precisely reach target points in a
user-interactive manner, as shown in Fig.1. To achieve this, we propose
DragGAN, which consists of two main components: 1) a feature-based motion
supervision that drives the handle point to move towards the target position,
and 2) a new point tracking approach that leverages the discriminative
generator features to keep localizing the position of the handle points.
Through DragGAN, anyone can deform an image with precise control over where
pixels go, thus manipulating the pose, shape, expression, and layout of diverse
categories such as animals, cars, humans, landscapes, etc. As these
manipulations are performed on the learned generative image manifold of a GAN,
they tend to produce realistic outputs even for challenging scenarios such as
hallucinating occluded content and deforming shapes that consistently follow
the object's rigidity. Both qualitative and quantitative comparisons
demonstrate the advantage of DragGAN over prior approaches in the tasks of
image manipulation and point tracking. We also showcase the manipulation of
real images through GAN inversion.