ChatPaper.aiChatPaper

Drag Your GAN: 생성적 이미지 매니폴드에서의 인터랙티브 포인트 기반 조작

Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

May 18, 2023
저자: Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka, Christian Theobalt
cs.AI

초록

사용자의 요구를 충족하는 시각적 콘텐츠를 합성하기 위해서는 생성된 객체의 포즈, 형태, 표정, 레이아웃에 대한 유연하고 정밀한 제어가 종종 필요합니다. 기존의 접근 방식은 수동으로 주석이 달린 훈련 데이터나 사전 3D 모델을 통해 생성적 적대 신경망(GAN)의 제어성을 확보하지만, 이는 종종 유연성, 정밀성, 일반성이 부족합니다. 본 연구에서는 GAN을 제어하는 강력하지만 훨씬 덜 탐구된 방법, 즉 사용자와 상호작용하는 방식으로 이미지의 임의의 점을 '드래그'하여 정확히 목표 지점에 도달하도록 하는 방법을 연구합니다(Fig.1 참조). 이를 위해 우리는 DragGAN을 제안하며, 이는 두 가지 주요 구성 요소로 이루어져 있습니다: 1) 핸들 포인트가 목표 위치로 이동하도록 하는 특징 기반 모션 감독, 2) 핸들 포인트의 위치를 계속 추적하기 위해 판별적 생성기 특징을 활용하는 새로운 포인트 추적 접근법. DragGAN을 통해 누구나 픽셀이 이동할 위치를 정밀하게 제어하며 이미지를 변형할 수 있어, 동물, 자동차, 인간, 풍경 등 다양한 범주의 포즈, 형태, 표정, 레이아웃을 조작할 수 있습니다. 이러한 조작은 GAN의 학습된 생성적 이미지 매니폴드에서 수행되기 때문에, 가려진 콘텐츠를 환상적으로 생성하거나 객체의 강성을 일관되게 따르는 형태 변형과 같은 어려운 시나리오에서도 현실적인 출력을 생성하는 경향이 있습니다. 정성적 및 정량적 비교를 통해 DragGAN이 이미지 조작 및 포인트 추적 작업에서 기존 접근 방식보다 우수함을 입증합니다. 또한 GAN 역변환을 통해 실제 이미지의 조작을 보여줍니다.
English
Synthesizing visual content that meets users' needs often requires flexible and precise controllability of the pose, shape, expression, and layout of the generated objects. Existing approaches gain controllability of generative adversarial networks (GANs) via manually annotated training data or a prior 3D model, which often lack flexibility, precision, and generality. In this work, we study a powerful yet much less explored way of controlling GANs, that is, to "drag" any points of the image to precisely reach target points in a user-interactive manner, as shown in Fig.1. To achieve this, we propose DragGAN, which consists of two main components: 1) a feature-based motion supervision that drives the handle point to move towards the target position, and 2) a new point tracking approach that leverages the discriminative generator features to keep localizing the position of the handle points. Through DragGAN, anyone can deform an image with precise control over where pixels go, thus manipulating the pose, shape, expression, and layout of diverse categories such as animals, cars, humans, landscapes, etc. As these manipulations are performed on the learned generative image manifold of a GAN, they tend to produce realistic outputs even for challenging scenarios such as hallucinating occluded content and deforming shapes that consistently follow the object's rigidity. Both qualitative and quantitative comparisons demonstrate the advantage of DragGAN over prior approaches in the tasks of image manipulation and point tracking. We also showcase the manipulation of real images through GAN inversion.
PDF3774December 15, 2024