Дьявол кроется в деталях: StyleFeatureEditor для StyleGAN с богатыми деталями. Инверсия и редактирование изображений высокого качества.
The Devil is in the Details: StyleFeatureEditor for Detail-Rich StyleGAN Inversion and High Quality Image Editing
June 15, 2024
Авторы: Denis Bobkov, Vadim Titov, Aibek Alanov, Dmitry Vetrov
cs.AI
Аннотация
Задача манипулирования реальными атрибутами изображений с помощью инверсии StyleGAN была широко исследована. Этот процесс включает поиск латентных переменных из хорошо обученного генератора StyleGAN, способного синтезировать реальное изображение, модификацию этих латентных переменных, а затем синтезирование изображения с желаемыми изменениями. Необходим баланс между качеством реконструкции и возможностью редактирования. Ранее проводившиеся исследования использовали низкоразмерное пространство W-латент для поиска латентных переменных, что способствовало эффективному редактированию, но затрудняло восстановление сложных деталей. Более новые исследования обратились к высокоразмерному пространству признаков F, которое успешно инвертирует входное изображение, но теряет много деталей во время редактирования. В данной статье мы представляем StyleFeatureEditor — новый метод, позволяющий редактирование как в W-латентах, так и в F-латентах. Эта техника не только позволяет восстанавливать более тонкие детали изображения, но и обеспечивает их сохранение во время редактирования. Мы также представляем новый обучающий процесс, специально разработанный для обучения нашей модели точному редактированию F-латент. Наш метод сравнивается с передовыми методами кодирования, демонстрируя, что наша модель превосходит их по качеству реконструкции и способна редактировать даже сложные примеры из других областей. Код доступен по ссылке https://github.com/AIRI-Institute/StyleFeatureEditor.
English
The task of manipulating real image attributes through StyleGAN inversion has
been extensively researched. This process involves searching latent variables
from a well-trained StyleGAN generator that can synthesize a real image,
modifying these latent variables, and then synthesizing an image with the
desired edits. A balance must be struck between the quality of the
reconstruction and the ability to edit. Earlier studies utilized the
low-dimensional W-space for latent search, which facilitated effective editing
but struggled with reconstructing intricate details. More recent research has
turned to the high-dimensional feature space F, which successfully inverses the
input image but loses much of the detail during editing. In this paper, we
introduce StyleFeatureEditor -- a novel method that enables editing in both
w-latents and F-latents. This technique not only allows for the reconstruction
of finer image details but also ensures their preservation during editing. We
also present a new training pipeline specifically designed to train our model
to accurately edit F-latents. Our method is compared with state-of-the-art
encoding approaches, demonstrating that our model excels in terms of
reconstruction quality and is capable of editing even challenging out-of-domain
examples. Code is available at
https://github.com/AIRI-Institute/StyleFeatureEditor.Summary
AI-Generated Summary