가이드-앤-리스케일: 효과적인 튜닝 없는 실시간 이미지 편집을 위한 자기 가이드 메커니즘
Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing
September 2, 2024
저자: Vadim Titov, Madina Khalmatova, Alexandra Ivanova, Dmitry Vetrov, Aibek Alanov
cs.AI
초록
대규모 텍스트-이미지 생성 모델의 최근 발전에도 불구하고, 이러한 모델을 사용하여 실제 이미지를 조작하는 것은 여전히 어려운 문제로 남아 있습니다. 기존 편집 방법의 주요 한계는 다양한 이미지 편집에서 일관된 품질을 유지하지 못하거나, 입력 이미지의 특정 외관을 보존하기 위해 확산 모델의 시간 소모적인 하이퍼파라미터 조정 또는 미세 조정이 필요하다는 점입니다. 우리는 이러한 문제를 해결하기 위해 수정된 확산 샘플링 과정을 기반으로 한 새로운 접근 방식을 제안합니다. 이 연구에서는 입력 이미지의 전반적인 구조와 편집되지 않아야 할 지역적 외관을 보존하기 위해 자기-가이던스 기술을 탐구합니다. 특히, 원본 이미지의 지역적 및 전역적 구조를 보존하기 위한 레이아웃 보존 에너지 함수를 명시적으로 도입합니다. 또한, 생성 과정에서 분류자 없는 가이던스와 우리가 제안한 가이더의 규범을 균형 있게 조정하여 노이즈 분포를 보존할 수 있는 노이즈 재조정 메커니즘을 제안합니다. 이러한 가이던스 접근 방식은 확산 모델의 미세 조정과 정확한 역변환 과정을 필요로 하지 않습니다. 결과적으로, 제안된 방법은 빠르고 고품질의 편집 메커니즘을 제공합니다. 우리의 실험에서는 인간 평가와 정량적 분석을 통해 제안된 방법이 인간이 선호하는 편집을 생성할 수 있으며, 편집 품질과 원본 이미지 보존 사이에서 더 나은 균형을 달성함을 보여줍니다. 우리의 코드는 https://github.com/FusionBrainLab/Guide-and-Rescale에서 확인할 수 있습니다.
English
Despite recent advances in large-scale text-to-image generative models,
manipulating real images with these models remains a challenging problem. The
main limitations of existing editing methods are that they either fail to
perform with consistent quality on a wide range of image edits or require
time-consuming hyperparameter tuning or fine-tuning of the diffusion model to
preserve the image-specific appearance of the input image. We propose a novel
approach that is built upon a modified diffusion sampling process via the
guidance mechanism. In this work, we explore the self-guidance technique to
preserve the overall structure of the input image and its local regions
appearance that should not be edited. In particular, we explicitly introduce
layout-preserving energy functions that are aimed to save local and global
structures of the source image. Additionally, we propose a noise rescaling
mechanism that allows to preserve noise distribution by balancing the norms of
classifier-free guidance and our proposed guiders during generation. Such a
guiding approach does not require fine-tuning the diffusion model and exact
inversion process. As a result, the proposed method provides a fast and
high-quality editing mechanism. In our experiments, we show through human
evaluation and quantitative analysis that the proposed method allows to produce
desired editing which is more preferable by humans and also achieves a better
trade-off between editing quality and preservation of the original image. Our
code is available at https://github.com/FusionBrainLab/Guide-and-Rescale.