Drag Your GAN: 生成画像多様体上のインタラクティブなポイントベース操作
Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
May 18, 2023
著者: Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka, Christian Theobalt
cs.AI
要旨
ユーザーのニーズに合致した視覚コンテンツを合成するためには、生成されるオブジェクトのポーズ、形状、表情、レイアウトを柔軟かつ精密に制御する必要があります。既存のアプローチでは、手動で注釈付けされたトレーニングデータや事前の3Dモデルを用いて生成敵対ネットワーク(GAN)の制御性を獲得していますが、これらは柔軟性、精度、汎用性に欠けることが多いです。本研究では、図1に示すように、画像の任意のポイントをユーザーがインタラクティブにターゲットポイントまで「ドラッグ」することでGANを制御する、強力でありながらあまり探索されていない方法を検討します。これを実現するため、DragGANを提案します。DragGANは、1)ハンドルポイントをターゲット位置に向かって移動させる特徴ベースのモーション監視と、2)ハンドルポイントの位置を継続的に特定するために識別的なジェネレータ特徴を活用する新しいポイントトラッキングアプローチの2つの主要コンポーネントで構成されています。DragGANを通じて、誰でもピクセルが移動する場所を精密に制御しながら画像を変形させ、動物、車、人間、風景など多様なカテゴリのポーズ、形状、表情、レイアウトを操作できます。これらの操作はGANの学習された生成画像多様体上で行われるため、隠蔽されたコンテンツを幻覚させたり、オブジェクトの剛性に一貫して従う形状を変形させたりするような困難なシナリオでも現実的な出力を生成する傾向があります。定性的および定量的な比較により、画像操作とポイントトラッキングのタスクにおいて、DragGANが従来のアプローチよりも優れていることが示されています。また、GAN逆変換を通じた実画像の操作も紹介します。
English
Synthesizing visual content that meets users' needs often requires flexible
and precise controllability of the pose, shape, expression, and layout of the
generated objects. Existing approaches gain controllability of generative
adversarial networks (GANs) via manually annotated training data or a prior 3D
model, which often lack flexibility, precision, and generality. In this work,
we study a powerful yet much less explored way of controlling GANs, that is, to
"drag" any points of the image to precisely reach target points in a
user-interactive manner, as shown in Fig.1. To achieve this, we propose
DragGAN, which consists of two main components: 1) a feature-based motion
supervision that drives the handle point to move towards the target position,
and 2) a new point tracking approach that leverages the discriminative
generator features to keep localizing the position of the handle points.
Through DragGAN, anyone can deform an image with precise control over where
pixels go, thus manipulating the pose, shape, expression, and layout of diverse
categories such as animals, cars, humans, landscapes, etc. As these
manipulations are performed on the learned generative image manifold of a GAN,
they tend to produce realistic outputs even for challenging scenarios such as
hallucinating occluded content and deforming shapes that consistently follow
the object's rigidity. Both qualitative and quantitative comparisons
demonstrate the advantage of DragGAN over prior approaches in the tasks of
image manipulation and point tracking. We also showcase the manipulation of
real images through GAN inversion.