ChatPaper.aiChatPaper

O Diabo Está nos Detalhes: StyleFeatureEditor para Inversão e Edição de Imagens de Alta Qualidade em StyleGAN Rico em Detalhes

The Devil is in the Details: StyleFeatureEditor for Detail-Rich StyleGAN Inversion and High Quality Image Editing

June 15, 2024
Autores: Denis Bobkov, Vadim Titov, Aibek Alanov, Dmitry Vetrov
cs.AI

Resumo

A tarefa de manipular atributos de imagens reais por meio da inversão do StyleGAN tem sido amplamente pesquisada. Esse processo envolve a busca por variáveis latentes de um gerador StyleGAN bem treinado que possa sintetizar uma imagem real, a modificação dessas variáveis latentes e, em seguida, a síntese de uma imagem com as edições desejadas. É necessário encontrar um equilíbrio entre a qualidade da reconstrução e a capacidade de edição. Estudos anteriores utilizaram o espaço latente W de baixa dimensionalidade para a busca latente, o que facilitou a edição eficaz, mas enfrentou dificuldades na reconstrução de detalhes intrincados. Pesquisas mais recentes voltaram-se para o espaço de características F de alta dimensionalidade, que consegue inverter a imagem de entrada, mas perde muitos detalhes durante a edição. Neste artigo, apresentamos o StyleFeatureEditor — um método inovador que permite a edição tanto em latentes W quanto em latentes F. Essa técnica não apenas possibilita a reconstrução de detalhes mais refinados da imagem, mas também garante sua preservação durante a edição. Também apresentamos um novo pipeline de treinamento projetado especificamente para treinar nosso modelo a editar com precisão os latentes F. Nosso método é comparado com abordagens de codificação state-of-the-art, demonstrando que nosso modelo se destaca em termos de qualidade de reconstrução e é capaz de editar até mesmo exemplos desafiadores fora do domínio. O código está disponível em https://github.com/AIRI-Institute/StyleFeatureEditor.
English
The task of manipulating real image attributes through StyleGAN inversion has been extensively researched. This process involves searching latent variables from a well-trained StyleGAN generator that can synthesize a real image, modifying these latent variables, and then synthesizing an image with the desired edits. A balance must be struck between the quality of the reconstruction and the ability to edit. Earlier studies utilized the low-dimensional W-space for latent search, which facilitated effective editing but struggled with reconstructing intricate details. More recent research has turned to the high-dimensional feature space F, which successfully inverses the input image but loses much of the detail during editing. In this paper, we introduce StyleFeatureEditor -- a novel method that enables editing in both w-latents and F-latents. This technique not only allows for the reconstruction of finer image details but also ensures their preservation during editing. We also present a new training pipeline specifically designed to train our model to accurately edit F-latents. Our method is compared with state-of-the-art encoding approaches, demonstrating that our model excels in terms of reconstruction quality and is capable of editing even challenging out-of-domain examples. Code is available at https://github.com/AIRI-Institute/StyleFeatureEditor.
PDF702December 2, 2024