ChatPaper.aiChatPaper

Drag Your GAN: Интерактивное управление на основе точек на генеративном изображении многообразия

Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold

May 18, 2023
Авторы: Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka, Christian Theobalt
cs.AI

Аннотация

Синтез визуального контента, отвечающего потребностям пользователей, часто требует гибкого и точного управления позой, формой, выражением и компоновкой генерируемых объектов. Существующие подходы обеспечивают управление генеративно-состязательными сетями (GAN) с помощью ручной аннотации обучающих данных или предварительной 3D-модели, что часто ограничивает гибкость, точность и универсальность. В данной работе мы исследуем мощный, но малоизученный способ управления GAN, который заключается в "перетаскивании" любых точек изображения для точного достижения целевых точек в интерактивном режиме, как показано на рис. 1. Для реализации этого мы предлагаем DragGAN, состоящий из двух основных компонентов: 1) управления движением на основе признаков, которое направляет опорную точку к целевой позиции, и 2) нового подхода к отслеживанию точек, использующего дискриминативные признаки генератора для постоянной локализации положения опорных точек. С помощью DragGAN любой пользователь может деформировать изображение с точным контролем над перемещением пикселей, тем самым управляя позой, формой, выражением и компоновкой объектов различных категорий, таких как животные, автомобили, люди, пейзажи и т.д. Поскольку эти манипуляции выполняются на изученном генеративном многообразии изображений GAN, они позволяют получать реалистичные результаты даже в сложных сценариях, таких как восстановление скрытых областей и деформация форм, которые согласуются с жесткостью объекта. Качественные и количественные сравнения демонстрируют преимущество DragGAN перед предыдущими подходами в задачах манипуляции изображениями и отслеживания точек. Мы также демонстрируем манипуляцию реальными изображениями с помощью инверсии GAN.
English
Synthesizing visual content that meets users' needs often requires flexible and precise controllability of the pose, shape, expression, and layout of the generated objects. Existing approaches gain controllability of generative adversarial networks (GANs) via manually annotated training data or a prior 3D model, which often lack flexibility, precision, and generality. In this work, we study a powerful yet much less explored way of controlling GANs, that is, to "drag" any points of the image to precisely reach target points in a user-interactive manner, as shown in Fig.1. To achieve this, we propose DragGAN, which consists of two main components: 1) a feature-based motion supervision that drives the handle point to move towards the target position, and 2) a new point tracking approach that leverages the discriminative generator features to keep localizing the position of the handle points. Through DragGAN, anyone can deform an image with precise control over where pixels go, thus manipulating the pose, shape, expression, and layout of diverse categories such as animals, cars, humans, landscapes, etc. As these manipulations are performed on the learned generative image manifold of a GAN, they tend to produce realistic outputs even for challenging scenarios such as hallucinating occluded content and deforming shapes that consistently follow the object's rigidity. Both qualitative and quantitative comparisons demonstrate the advantage of DragGAN over prior approaches in the tasks of image manipulation and point tracking. We also showcase the manipulation of real images through GAN inversion.
PDF3774December 15, 2024