Guia-e-Redimensiona: Mecanismo de Autodirecionamento para Edição Eficaz de Imagens Reais sem AjusteGuide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free
Real Image Editing
Apesar dos recentes avanços nos modelos generativos de grande escala para texto-imagem, a manipulação de imagens reais com esses modelos continua a ser um problema desafiador. As principais limitações dos métodos de edição existentes são que eles ou falham em executar com qualidade consistente em uma ampla gama de edições de imagem ou requerem um ajuste demorado de hiperparâmetros ou um ajuste fino (*fine-tuning*) do modelo de difusão para preservar a aparência específica da imagem de entrada. Propomos uma nova abordagem construída sobre um processo de amostragem de difusão modificado por meio do mecanismo de orientação (*guidance*). Neste trabalho, exploramos a técnica de autoorientação (*self-guidance*) para preservar a estrutura geral da imagem de entrada e a aparência de suas regiões locais que não devem ser editadas. Em particular, introduzimos explicitamente funções de energia de preservação de layout (*layout-preserving*) que visam salvar as estruturas locais e globais da imagem de origem. Adicionalmente, propomos um mecanismo de reescalonamento de ruído (*noise rescaling*) que permite preservar a distribuição de ruído ao equilibrar as normas da orientação livre de classificador (*classifier-free guidance*) e dos nossos orientadores propostos durante a geração. Tal abordagem de orientação não requer o ajuste fino do modelo de difusão nem um processo de inversão exato. Como resultado, o método proposto fornece um mecanismo de edição rápido e de alta qualidade. Em nossos experimentos, mostramos por meio de avaliação humana e análise quantitativa que o método proposto permite produzir a edição desejada, que é mais preferida pelos humanos, e também alcança um melhor equilíbrio entre a qualidade da edição e a preservação da imagem original. Nosso código está disponível em https://github.com/FusionBrainLab/Guide-and-Rescale.