ChatPaper.aiChatPaper

Der Teufel steckt im Detail: StyleFeatureEditor für detailreiche StyleGAN-Inversion und hochwertige Bildbearbeitung.

The Devil is in the Details: StyleFeatureEditor for Detail-Rich StyleGAN Inversion and High Quality Image Editing

June 15, 2024
Autoren: Denis Bobkov, Vadim Titov, Aibek Alanov, Dmitry Vetrov
cs.AI

Zusammenfassung

Die Manipulation von echten Bildattributen durch StyleGAN-Inversion wurde eingehend erforscht. Dieser Prozess beinhaltet die Suche nach latenten Variablen aus einem gut trainierten StyleGAN-Generator, die ein echtes Bild synthetisieren können, das Modifizieren dieser latenten Variablen und dann die Synthese eines Bildes mit den gewünschten Änderungen. Es muss ein Gleichgewicht zwischen der Qualität der Rekonstruktion und der Bearbeitung gefunden werden. Frühere Studien verwendeten den niedrigdimensionalen W-Raum für die latente Suche, was eine effektive Bearbeitung ermöglichte, aber Schwierigkeiten bei der Rekonstruktion von komplexen Details bereitete. Neuere Forschungen haben sich dem hochdimensionalen Merkmalsraum F zugewandt, der das Eingangsbild erfolgreich invertiert, jedoch viele Details während der Bearbeitung verliert. In diesem Paper stellen wir StyleFeatureEditor vor - eine innovative Methode, die Bearbeitungen sowohl in w-latenten als auch in F-latenten ermöglicht. Diese Technik erlaubt nicht nur die Rekonstruktion feiner Bilddetails, sondern gewährleistet auch deren Erhalt während der Bearbeitung. Wir präsentieren auch einen neuen Schulungsprozess, der speziell darauf ausgelegt ist, unser Modell darauf zu trainieren, F-latente präzise zu bearbeiten. Unsere Methode wird mit State-of-the-Art-Kodierungsansätzen verglichen, was zeigt, dass unser Modell in Bezug auf Rekonstruktionsqualität herausragt und auch in der Lage ist, selbst herausfordernde Beispiele außerhalb des Domänenbereichs zu bearbeiten. Der Code ist verfügbar unter https://github.com/AIRI-Institute/StyleFeatureEditor.
English
The task of manipulating real image attributes through StyleGAN inversion has been extensively researched. This process involves searching latent variables from a well-trained StyleGAN generator that can synthesize a real image, modifying these latent variables, and then synthesizing an image with the desired edits. A balance must be struck between the quality of the reconstruction and the ability to edit. Earlier studies utilized the low-dimensional W-space for latent search, which facilitated effective editing but struggled with reconstructing intricate details. More recent research has turned to the high-dimensional feature space F, which successfully inverses the input image but loses much of the detail during editing. In this paper, we introduce StyleFeatureEditor -- a novel method that enables editing in both w-latents and F-latents. This technique not only allows for the reconstruction of finer image details but also ensures their preservation during editing. We also present a new training pipeline specifically designed to train our model to accurately edit F-latents. Our method is compared with state-of-the-art encoding approaches, demonstrating that our model excels in terms of reconstruction quality and is capable of editing even challenging out-of-domain examples. Code is available at https://github.com/AIRI-Institute/StyleFeatureEditor.

Summary

AI-Generated Summary

PDF702December 2, 2024