ChatPaper.aiChatPaper

Il diavolo sta nei dettagli: StyleFeatureEditor per l'inversione di StyleGAN ricco di dettagli e l'editing di immagini di alta qualità

The Devil is in the Details: StyleFeatureEditor for Detail-Rich StyleGAN Inversion and High Quality Image Editing

June 15, 2024
Autori: Denis Bobkov, Vadim Titov, Aibek Alanov, Dmitry Vetrov
cs.AI

Abstract

Il compito di manipolare gli attributi delle immagini reali attraverso l'inversione di StyleGAN è stato ampiamente studiato. Questo processo implica la ricerca di variabili latenti da un generatore StyleGAN ben addestrato che possa sintetizzare un'immagine reale, la modifica di queste variabili latenti e quindi la sintesi di un'immagine con le modifiche desiderate. È necessario trovare un equilibrio tra la qualità della ricostruzione e la capacità di modifica. Studi precedenti hanno utilizzato lo spazio W a bassa dimensionalità per la ricerca latente, che ha facilitato modifiche efficaci ma ha incontrato difficoltà nella ricostruzione di dettagli intricati. Ricerche più recenti si sono rivolte allo spazio delle caratteristiche F ad alta dimensionalità, che inverte con successo l'immagine di input ma perde molti dettagli durante la modifica. In questo articolo, introduciamo StyleFeatureEditor -- un metodo innovativo che consente la modifica sia nei latenti w che nei latenti F. Questa tecnica non solo permette la ricostruzione di dettagli più fini dell'immagine, ma ne garantisce anche la preservazione durante la modifica. Presentiamo inoltre una nuova pipeline di addestramento specificamente progettata per addestrare il nostro modello a modificare accuratamente i latenti F. Il nostro metodo viene confrontato con approcci di codifica all'avanguardia, dimostrando che il nostro modello eccelle in termini di qualità di ricostruzione ed è in grado di modificare anche esempi complessi fuori dominio. Il codice è disponibile all'indirizzo https://github.com/AIRI-Institute/StyleFeatureEditor.
English
The task of manipulating real image attributes through StyleGAN inversion has been extensively researched. This process involves searching latent variables from a well-trained StyleGAN generator that can synthesize a real image, modifying these latent variables, and then synthesizing an image with the desired edits. A balance must be struck between the quality of the reconstruction and the ability to edit. Earlier studies utilized the low-dimensional W-space for latent search, which facilitated effective editing but struggled with reconstructing intricate details. More recent research has turned to the high-dimensional feature space F, which successfully inverses the input image but loses much of the detail during editing. In this paper, we introduce StyleFeatureEditor -- a novel method that enables editing in both w-latents and F-latents. This technique not only allows for the reconstruction of finer image details but also ensures their preservation during editing. We also present a new training pipeline specifically designed to train our model to accurately edit F-latents. Our method is compared with state-of-the-art encoding approaches, demonstrating that our model excels in terms of reconstruction quality and is capable of editing even challenging out-of-domain examples. Code is available at https://github.com/AIRI-Institute/StyleFeatureEditor.
PDF702December 2, 2024