ChatPaper.aiChatPaper

El diablo está en los detalles: StyleFeatureEditor para la inversión de StyleGAN rica en detalles y la edición de imágenes de alta calidad

The Devil is in the Details: StyleFeatureEditor for Detail-Rich StyleGAN Inversion and High Quality Image Editing

June 15, 2024
Autores: Denis Bobkov, Vadim Titov, Aibek Alanov, Dmitry Vetrov
cs.AI

Resumen

La tarea de manipular atributos de imágenes reales mediante la inversión de StyleGAN ha sido ampliamente investigada. Este proceso implica buscar variables latentes de un generador StyleGAN bien entrenado que pueda sintetizar una imagen real, modificar estas variables latentes y luego sintetizar una imagen con las ediciones deseadas. Es necesario encontrar un equilibrio entre la calidad de la reconstrucción y la capacidad de edición. Estudios anteriores utilizaron el espacio W de baja dimensión para la búsqueda latente, lo que facilitó una edición efectiva pero presentó dificultades para reconstruir detalles intrincados. Investigaciones más recientes han recurrido al espacio de características F de alta dimensión, que logra invertir la imagen de entrada pero pierde gran parte de los detalles durante la edición. En este artículo, presentamos StyleFeatureEditor, un método novedoso que permite la edición tanto en latentes w como en latentes F. Esta técnica no solo permite la reconstrucción de detalles más finos de la imagen, sino que también asegura su preservación durante la edición. También presentamos una nueva canalización de entrenamiento diseñada específicamente para entrenar nuestro modelo y editar con precisión los latentes F. Nuestro método se compara con enfoques de codificación de última generación, demostrando que nuestro modelo sobresale en términos de calidad de reconstrucción y es capaz de editar incluso ejemplos desafiantes fuera del dominio. El código está disponible en https://github.com/AIRI-Institute/StyleFeatureEditor.
English
The task of manipulating real image attributes through StyleGAN inversion has been extensively researched. This process involves searching latent variables from a well-trained StyleGAN generator that can synthesize a real image, modifying these latent variables, and then synthesizing an image with the desired edits. A balance must be struck between the quality of the reconstruction and the ability to edit. Earlier studies utilized the low-dimensional W-space for latent search, which facilitated effective editing but struggled with reconstructing intricate details. More recent research has turned to the high-dimensional feature space F, which successfully inverses the input image but loses much of the detail during editing. In this paper, we introduce StyleFeatureEditor -- a novel method that enables editing in both w-latents and F-latents. This technique not only allows for the reconstruction of finer image details but also ensures their preservation during editing. We also present a new training pipeline specifically designed to train our model to accurately edit F-latents. Our method is compared with state-of-the-art encoding approaches, demonstrating that our model excels in terms of reconstruction quality and is capable of editing even challenging out-of-domain examples. Code is available at https://github.com/AIRI-Institute/StyleFeatureEditor.

Summary

AI-Generated Summary

PDF702December 2, 2024