ChatPaper.aiChatPaper

De Duivel zit in de Details: StyleFeatureEditor voor Detailrijke StyleGAN Inversie en Hoogwaardige Bewerking van Afbeeldingen

The Devil is in the Details: StyleFeatureEditor for Detail-Rich StyleGAN Inversion and High Quality Image Editing

June 15, 2024
Auteurs: Denis Bobkov, Vadim Titov, Aibek Alanov, Dmitry Vetrov
cs.AI

Samenvatting

De taak van het manipuleren van attributen van echte afbeeldingen via StyleGAN-inversie is uitgebreid onderzocht. Dit proces omvat het zoeken naar latente variabelen van een goed getrainde StyleGAN-generator die een echte afbeelding kunnen synthetiseren, het aanpassen van deze latente variabelen, en vervolgens het synthetiseren van een afbeelding met de gewenste aanpassingen. Er moet een balans worden gevonden tussen de kwaliteit van de reconstructie en de mogelijkheid om aanpassingen te maken. Eerdere studies maakten gebruik van de laagdimensionale W-ruimte voor het zoeken naar latente variabelen, wat effectieve aanpassingen mogelijk maakte maar moeite had met het reconstrueren van ingewikkelde details. Recenter onderzoek is uitgeweken naar de hoogdimensionale kenmerkruimte F, die de invoerafbeelding succesvol inverseert maar veel details verliest tijdens het aanpassen. In dit artikel introduceren we StyleFeatureEditor -- een nieuwe methode die aanpassingen mogelijk maakt in zowel w-latente als F-latente variabelen. Deze techniek maakt niet alleen de reconstructie van fijnere afbeeldingsdetails mogelijk, maar zorgt er ook voor dat deze behouden blijven tijdens het aanpassen. We presenteren ook een nieuwe trainingspipeline die specifiek is ontworpen om ons model te trainen om F-latente variabelen nauwkeurig aan te passen. Onze methode wordt vergeleken met state-of-the-art encoderingsbenaderingen, wat aantoont dat ons model uitblinkt in termen van reconstructiekwaliteit en in staat is om zelfs uitdagende voorbeelden buiten het domein aan te passen. Code is beschikbaar op https://github.com/AIRI-Institute/StyleFeatureEditor.
English
The task of manipulating real image attributes through StyleGAN inversion has been extensively researched. This process involves searching latent variables from a well-trained StyleGAN generator that can synthesize a real image, modifying these latent variables, and then synthesizing an image with the desired edits. A balance must be struck between the quality of the reconstruction and the ability to edit. Earlier studies utilized the low-dimensional W-space for latent search, which facilitated effective editing but struggled with reconstructing intricate details. More recent research has turned to the high-dimensional feature space F, which successfully inverses the input image but loses much of the detail during editing. In this paper, we introduce StyleFeatureEditor -- a novel method that enables editing in both w-latents and F-latents. This technique not only allows for the reconstruction of finer image details but also ensures their preservation during editing. We also present a new training pipeline specifically designed to train our model to accurately edit F-latents. Our method is compared with state-of-the-art encoding approaches, demonstrating that our model excels in terms of reconstruction quality and is capable of editing even challenging out-of-domain examples. Code is available at https://github.com/AIRI-Institute/StyleFeatureEditor.
PDF702December 2, 2024