HD-Painter: Inpainting de imágenes guiado por texto de alta resolución y fidelidad al prompt con modelos de difusión
HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models
December 21, 2023
Autores: Hayk Manukyan, Andranik Sargsyan, Barsegh Atanyan, Zhangyang Wang, Shant Navasardyan, Humphrey Shi
cs.AI
Resumen
Los recientes avances en la restauración de imágenes guiada por texto, basados en el éxito sin precedentes de los modelos de difusión de texto a imagen, han dado lugar a resultados excepcionalmente realistas y visualmente plausibles. Sin embargo, aún existe un potencial significativo de mejora en los modelos actuales de restauración de texto a imagen, particularmente en una mejor alineación del área restaurada con las indicaciones del usuario y en la realización de restauraciones de alta resolución. Por lo tanto, en este artículo presentamos HD-Painter, un enfoque completamente libre de entrenamiento que sigue con precisión las indicaciones y escala coherentemente a la restauración de imágenes de alta resolución. Para ello, diseñamos la capa de Atención Introvertida Consciente del Prompt (PAIntA), que mejora las puntuaciones de auto-atención mediante la información del prompt, lo que resulta en generaciones con mejor alineación de texto. Para mejorar aún más la coherencia del prompt, introducimos el mecanismo de Guía de Puntuación de Atención Reponderada (RASG), que integra sin problemas una estrategia de muestreo post-hoc en la forma general de DDIM para evitar desplazamientos latentes fuera de distribución. Además, HD-Painter permite la extensión a escalas más grandes mediante la introducción de una técnica de super-resolución especializada y personalizada para la restauración, lo que permite completar regiones faltantes en imágenes de hasta 2K de resolución. Nuestros experimentos demuestran que HD-Painter supera cualitativa y cuantitativamente a los enfoques más avanzados existentes, logrando una impresionante mejora en la precisión de generación del 61.4% frente al 51.9%. Haremos los códigos públicamente disponibles en: https://github.com/Picsart-AI-Research/HD-Painter
English
Recent progress in text-guided image inpainting, based on the unprecedented
success of text-to-image diffusion models, has led to exceptionally realistic
and visually plausible results. However, there is still significant potential
for improvement in current text-to-image inpainting models, particularly in
better aligning the inpainted area with user prompts and performing
high-resolution inpainting. Therefore, in this paper we introduce HD-Painter, a
completely training-free approach that accurately follows to prompts and
coherently scales to high-resolution image inpainting. To this end, we design
the Prompt-Aware Introverted Attention (PAIntA) layer enhancing self-attention
scores by prompt information and resulting in better text alignment
generations. To further improve the prompt coherence we introduce the
Reweighting Attention Score Guidance (RASG) mechanism seamlessly integrating a
post-hoc sampling strategy into general form of DDIM to prevent
out-of-distribution latent shifts. Moreover, HD-Painter allows extension to
larger scales by introducing a specialized super-resolution technique
customized for inpainting, enabling the completion of missing regions in images
of up to 2K resolution. Our experiments demonstrate that HD-Painter surpasses
existing state-of-the-art approaches qualitatively and quantitatively,
achieving an impressive generation accuracy improvement of 61.4% vs 51.9%. We
will make the codes publicly available at:
https://github.com/Picsart-AI-Research/HD-Painter