ChatPaper.aiChatPaper

Guia-e-Redimensiona: Mecanismo de Autodirecionamento para Edição Eficaz de Imagens Reais sem Ajuste

Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing

September 2, 2024
Autores: Vadim Titov, Madina Khalmatova, Alexandra Ivanova, Dmitry Vetrov, Aibek Alanov
cs.AI

Resumo

Apesar dos recentes avanços nos modelos generativos de grande escala para texto-imagem, a manipulação de imagens reais com esses modelos continua a ser um problema desafiador. As principais limitações dos métodos de edição existentes são que eles ou falham em executar com qualidade consistente em uma ampla gama de edições de imagem ou requerem um ajuste demorado de hiperparâmetros ou um ajuste fino (*fine-tuning*) do modelo de difusão para preservar a aparência específica da imagem de entrada. Propomos uma nova abordagem construída sobre um processo de amostragem de difusão modificado por meio do mecanismo de orientação (*guidance*). Neste trabalho, exploramos a técnica de autoorientação (*self-guidance*) para preservar a estrutura geral da imagem de entrada e a aparência de suas regiões locais que não devem ser editadas. Em particular, introduzimos explicitamente funções de energia de preservação de layout (*layout-preserving*) que visam salvar as estruturas locais e globais da imagem de origem. Adicionalmente, propomos um mecanismo de reescalonamento de ruído (*noise rescaling*) que permite preservar a distribuição de ruído ao equilibrar as normas da orientação livre de classificador (*classifier-free guidance*) e dos nossos orientadores propostos durante a geração. Tal abordagem de orientação não requer o ajuste fino do modelo de difusão nem um processo de inversão exato. Como resultado, o método proposto fornece um mecanismo de edição rápido e de alta qualidade. Em nossos experimentos, mostramos por meio de avaliação humana e análise quantitativa que o método proposto permite produzir a edição desejada, que é mais preferida pelos humanos, e também alcança um melhor equilíbrio entre a qualidade da edição e a preservação da imagem original. Nosso código está disponível em https://github.com/FusionBrainLab/Guide-and-Rescale.
English
Despite recent advances in large-scale text-to-image generative models, manipulating real images with these models remains a challenging problem. The main limitations of existing editing methods are that they either fail to perform with consistent quality on a wide range of image edits or require time-consuming hyperparameter tuning or fine-tuning of the diffusion model to preserve the image-specific appearance of the input image. We propose a novel approach that is built upon a modified diffusion sampling process via the guidance mechanism. In this work, we explore the self-guidance technique to preserve the overall structure of the input image and its local regions appearance that should not be edited. In particular, we explicitly introduce layout-preserving energy functions that are aimed to save local and global structures of the source image. Additionally, we propose a noise rescaling mechanism that allows to preserve noise distribution by balancing the norms of classifier-free guidance and our proposed guiders during generation. Such a guiding approach does not require fine-tuning the diffusion model and exact inversion process. As a result, the proposed method provides a fast and high-quality editing mechanism. In our experiments, we show through human evaluation and quantitative analysis that the proposed method allows to produce desired editing which is more preferable by humans and also achieves a better trade-off between editing quality and preservation of the original image. Our code is available at https://github.com/FusionBrainLab/Guide-and-Rescale.
PDF962November 14, 2024