O Diabo Está nos Detalhes: StyleFeatureEditor para Inversão e Edição de Imagens de Alta Qualidade em StyleGAN Rico em Detalhes
The Devil is in the Details: StyleFeatureEditor for Detail-Rich StyleGAN Inversion and High Quality Image Editing
June 15, 2024
Autores: Denis Bobkov, Vadim Titov, Aibek Alanov, Dmitry Vetrov
cs.AI
Resumo
A tarefa de manipular atributos de imagens reais por meio da inversão do StyleGAN tem sido amplamente pesquisada. Esse processo envolve a busca por variáveis latentes de um gerador StyleGAN bem treinado que possa sintetizar uma imagem real, a modificação dessas variáveis latentes e, em seguida, a síntese de uma imagem com as edições desejadas. É necessário encontrar um equilíbrio entre a qualidade da reconstrução e a capacidade de edição. Estudos anteriores utilizaram o espaço latente W de baixa dimensionalidade para a busca latente, o que facilitou a edição eficaz, mas enfrentou dificuldades na reconstrução de detalhes intrincados. Pesquisas mais recentes voltaram-se para o espaço de características F de alta dimensionalidade, que consegue inverter a imagem de entrada, mas perde muitos detalhes durante a edição. Neste artigo, apresentamos o StyleFeatureEditor — um método inovador que permite a edição tanto em latentes W quanto em latentes F. Essa técnica não apenas possibilita a reconstrução de detalhes mais refinados da imagem, mas também garante sua preservação durante a edição. Também apresentamos um novo pipeline de treinamento projetado especificamente para treinar nosso modelo a editar com precisão os latentes F. Nosso método é comparado com abordagens de codificação state-of-the-art, demonstrando que nosso modelo se destaca em termos de qualidade de reconstrução e é capaz de editar até mesmo exemplos desafiadores fora do domínio. O código está disponível em https://github.com/AIRI-Institute/StyleFeatureEditor.
English
The task of manipulating real image attributes through StyleGAN inversion has
been extensively researched. This process involves searching latent variables
from a well-trained StyleGAN generator that can synthesize a real image,
modifying these latent variables, and then synthesizing an image with the
desired edits. A balance must be struck between the quality of the
reconstruction and the ability to edit. Earlier studies utilized the
low-dimensional W-space for latent search, which facilitated effective editing
but struggled with reconstructing intricate details. More recent research has
turned to the high-dimensional feature space F, which successfully inverses the
input image but loses much of the detail during editing. In this paper, we
introduce StyleFeatureEditor -- a novel method that enables editing in both
w-latents and F-latents. This technique not only allows for the reconstruction
of finer image details but also ensures their preservation during editing. We
also present a new training pipeline specifically designed to train our model
to accurately edit F-latents. Our method is compared with state-of-the-art
encoding approaches, demonstrating that our model excels in terms of
reconstruction quality and is capable of editing even challenging out-of-domain
examples. Code is available at
https://github.com/AIRI-Institute/StyleFeatureEditor.