ChatPaper.aiChatPaper

Le diable est dans les détails : StyleFeatureEditor pour l'inversion de StyleGAN riche en détails et l'édition d'images de haute qualité

The Devil is in the Details: StyleFeatureEditor for Detail-Rich StyleGAN Inversion and High Quality Image Editing

June 15, 2024
Auteurs: Denis Bobkov, Vadim Titov, Aibek Alanov, Dmitry Vetrov
cs.AI

Résumé

La tâche de manipulation des attributs d'images réelles via l'inversion de StyleGAN a fait l'objet de nombreuses recherches. Ce processus consiste à rechercher des variables latentes à partir d'un générateur StyleGAN bien entraîné qui peut synthétiser une image réelle, à modifier ces variables latentes, puis à synthétiser une image avec les modifications souhaitées. Un équilibre doit être trouvé entre la qualité de la reconstruction et la capacité à effectuer des modifications. Les premières études ont utilisé l'espace latent de faible dimension W pour la recherche latente, ce qui a facilité des modifications efficaces mais a rencontré des difficultés pour reconstruire des détails complexes. Des recherches plus récentes se sont tournées vers l'espace de caractéristiques de haute dimension F, qui inverse avec succès l'image d'entrée mais perd une grande partie des détails lors de la modification. Dans cet article, nous présentons StyleFeatureEditor -- une nouvelle méthode qui permet des modifications à la fois dans les latents W et F. Cette technique permet non seulement de reconstruire des détails d'image plus fins, mais assure également leur préservation lors de la modification. Nous présentons également un nouveau pipeline d'entraînement spécialement conçu pour entraîner notre modèle à modifier avec précision les latents F. Notre méthode est comparée aux approches d'encodage de pointe, démontrant que notre modèle excelle en termes de qualité de reconstruction et est capable de modifier même des exemples difficiles hors domaine. Le code est disponible à l'adresse suivante : https://github.com/AIRI-Institute/StyleFeatureEditor.
English
The task of manipulating real image attributes through StyleGAN inversion has been extensively researched. This process involves searching latent variables from a well-trained StyleGAN generator that can synthesize a real image, modifying these latent variables, and then synthesizing an image with the desired edits. A balance must be struck between the quality of the reconstruction and the ability to edit. Earlier studies utilized the low-dimensional W-space for latent search, which facilitated effective editing but struggled with reconstructing intricate details. More recent research has turned to the high-dimensional feature space F, which successfully inverses the input image but loses much of the detail during editing. In this paper, we introduce StyleFeatureEditor -- a novel method that enables editing in both w-latents and F-latents. This technique not only allows for the reconstruction of finer image details but also ensures their preservation during editing. We also present a new training pipeline specifically designed to train our model to accurately edit F-latents. Our method is compared with state-of-the-art encoding approaches, demonstrating that our model excels in terms of reconstruction quality and is capable of editing even challenging out-of-domain examples. Code is available at https://github.com/AIRI-Institute/StyleFeatureEditor.

Summary

AI-Generated Summary

PDF702December 2, 2024