HD-Painter: Preenchimento de Imagens Guiado por Texto de Alta Resolução e Fiel ao Prompt com Modelos de Difusão
HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models
December 21, 2023
Autores: Hayk Manukyan, Andranik Sargsyan, Barsegh Atanyan, Zhangyang Wang, Shant Navasardyan, Humphrey Shi
cs.AI
Resumo
Os recentes avanços na restauração de imagens guiada por texto, baseados no sucesso sem precedentes dos modelos de difusão de texto para imagem, têm gerado resultados excepcionalmente realistas e visualmente plausíveis. No entanto, ainda há um potencial significativo de melhoria nos modelos atuais de restauração de texto para imagem, particularmente no alinhamento mais preciso da área restaurada com os prompts do usuário e na execução de restaurações em alta resolução. Portanto, neste artigo, apresentamos o HD-Painter, uma abordagem completamente livre de treinamento que segue com precisão os prompts e escala de forma coerente para a restauração de imagens em alta resolução. Para isso, projetamos a camada de Atenção Introvertida Consciente do Prompt (PAIntA), que aprimora os escores de auto-atenção com informações do prompt, resultando em gerações com melhor alinhamento de texto. Para melhorar ainda mais a coerência do prompt, introduzimos o mecanismo de Orientação de Reajuste de Escore de Atenção (RASG), que integra de forma contínua uma estratégia de amostragem pós-hoc na forma geral do DDIM para evitar desvios latentes fora da distribuição. Além disso, o HD-Painter permite a extensão para escalas maiores ao introduzir uma técnica especializada de super-resolução personalizada para restauração, possibilitando a conclusão de regiões ausentes em imagens de até 2K de resolução. Nossos experimentos demonstram que o HD-Painter supera qualitativa e quantitativamente as abordagens state-of-the-art existentes, alcançando uma impressionante melhoria de 61,4% vs 51,9% na precisão de geração. Disponibilizaremos os códigos publicamente em: https://github.com/Picsart-AI-Research/HD-Painter
English
Recent progress in text-guided image inpainting, based on the unprecedented
success of text-to-image diffusion models, has led to exceptionally realistic
and visually plausible results. However, there is still significant potential
for improvement in current text-to-image inpainting models, particularly in
better aligning the inpainted area with user prompts and performing
high-resolution inpainting. Therefore, in this paper we introduce HD-Painter, a
completely training-free approach that accurately follows to prompts and
coherently scales to high-resolution image inpainting. To this end, we design
the Prompt-Aware Introverted Attention (PAIntA) layer enhancing self-attention
scores by prompt information and resulting in better text alignment
generations. To further improve the prompt coherence we introduce the
Reweighting Attention Score Guidance (RASG) mechanism seamlessly integrating a
post-hoc sampling strategy into general form of DDIM to prevent
out-of-distribution latent shifts. Moreover, HD-Painter allows extension to
larger scales by introducing a specialized super-resolution technique
customized for inpainting, enabling the completion of missing regions in images
of up to 2K resolution. Our experiments demonstrate that HD-Painter surpasses
existing state-of-the-art approaches qualitatively and quantitatively,
achieving an impressive generation accuracy improvement of 61.4% vs 51.9%. We
will make the codes publicly available at:
https://github.com/Picsart-AI-Research/HD-Painter