ChatPaper.aiChatPaper

악마는 디테일에 있다: 디테일이 풍부한 StyleGAN 인버전과 고품질 이미지 편집을 위한 StyleFeatureEditor

The Devil is in the Details: StyleFeatureEditor for Detail-Rich StyleGAN Inversion and High Quality Image Editing

June 15, 2024
저자: Denis Bobkov, Vadim Titov, Aibek Alanov, Dmitry Vetrov
cs.AI

초록

실제 이미지 속성을 StyleGAN 인버전을 통해 조작하는 작업은 광범위하게 연구되어 왔습니다. 이 과정은 잘 훈련된 StyleGAN 생성기에서 실제 이미지를 합성할 수 있는 잠재 변수를 탐색하고, 이러한 잠재 변수를 수정한 다음 원하는 편집이 적용된 이미지를 합성하는 것을 포함합니다. 이때 재구성 품질과 편집 능력 사이의 균형을 맞추는 것이 중요합니다. 초기 연구에서는 효과적인 편집을 가능하게 하지만 복잡한 세부 사항을 재구성하는 데 어려움을 겪는 저차원 W-공간을 잠재 탐색에 활용했습니다. 최근 연구에서는 입력 이미지를 성공적으로 역변환하지만 편집 중에 많은 세부 사항을 잃는 고차원 특징 공간 F로 전환했습니다. 본 논문에서는 w-잠재 변수와 F-잠재 변수 모두에서 편집을 가능하게 하는 새로운 방법인 StyleFeatureEditor를 소개합니다. 이 기술은 더 섬세한 이미지 세부 사항을 재구성할 수 있을 뿐만 아니라 편집 중에 이를 보존할 수 있도록 합니다. 또한 F-잠재 변수를 정확하게 편집하도록 모델을 훈련시키기 위해 특별히 설계된 새로운 훈련 파이프라인을 제시합니다. 우리의 방법은 최신 인코딩 접근 방식과 비교하여, 우리 모델이 재구성 품질에서 우수하며 도메인 외의 어려운 예제도 편집할 수 있음을 보여줍니다. 코드는 https://github.com/AIRI-Institute/StyleFeatureEditor에서 확인할 수 있습니다.
English
The task of manipulating real image attributes through StyleGAN inversion has been extensively researched. This process involves searching latent variables from a well-trained StyleGAN generator that can synthesize a real image, modifying these latent variables, and then synthesizing an image with the desired edits. A balance must be struck between the quality of the reconstruction and the ability to edit. Earlier studies utilized the low-dimensional W-space for latent search, which facilitated effective editing but struggled with reconstructing intricate details. More recent research has turned to the high-dimensional feature space F, which successfully inverses the input image but loses much of the detail during editing. In this paper, we introduce StyleFeatureEditor -- a novel method that enables editing in both w-latents and F-latents. This technique not only allows for the reconstruction of finer image details but also ensures their preservation during editing. We also present a new training pipeline specifically designed to train our model to accurately edit F-latents. Our method is compared with state-of-the-art encoding approaches, demonstrating that our model excels in terms of reconstruction quality and is capable of editing even challenging out-of-domain examples. Code is available at https://github.com/AIRI-Institute/StyleFeatureEditor.

Summary

AI-Generated Summary

PDF702December 2, 2024