HD-Painter: Inpainting de imágenes guiado por texto de alta resolución y fidelidad al prompt con modelos de difusión

Resumen

Los recientes avances en la restauración de imágenes guiada por texto, basados en el éxito sin precedentes de los modelos de difusión de texto a imagen, han dado lugar a resultados excepcionalmente realistas y visualmente plausibles. Sin embargo, aún existe un potencial significativo de mejora en los modelos actuales de restauración de texto a imagen, particularmente en una mejor alineación del área restaurada con las indicaciones del usuario y en la realización de restauraciones de alta resolución. Por lo tanto, en este artículo presentamos HD-Painter, un enfoque completamente libre de entrenamiento que sigue con precisión las indicaciones y escala coherentemente a la restauración de imágenes de alta resolución. Para ello, diseñamos la capa de Atención Introvertida Consciente del Prompt (PAIntA), que mejora las puntuaciones de auto-atención mediante la información del prompt, lo que resulta en generaciones con mejor alineación de texto. Para mejorar aún más la coherencia del prompt, introducimos el mecanismo de Guía de Puntuación de Atención Reponderada (RASG), que integra sin problemas una estrategia de muestreo post-hoc en la forma general de DDIM para evitar desplazamientos latentes fuera de distribución. Además, HD-Painter permite la extensión a escalas más grandes mediante la introducción de una técnica de super-resolución especializada y personalizada para la restauración, lo que permite completar regiones faltantes en imágenes de hasta 2K de resolución. Nuestros experimentos demuestran que HD-Painter supera cualitativa y cuantitativamente a los enfoques más avanzados existentes, logrando una impresionante mejora en la precisión de generación del 61.4% frente al 51.9%. Haremos los códigos públicamente disponibles en: https://github.com/Picsart-AI-Research/HD-Painter

English

Recent progress in text-guided image inpainting, based on the unprecedented success of text-to-image diffusion models, has led to exceptionally realistic and visually plausible results. However, there is still significant potential for improvement in current text-to-image inpainting models, particularly in better aligning the inpainted area with user prompts and performing high-resolution inpainting. Therefore, in this paper we introduce HD-Painter, a completely training-free approach that accurately follows to prompts and coherently scales to high-resolution image inpainting. To this end, we design the Prompt-Aware Introverted Attention (PAIntA) layer enhancing self-attention scores by prompt information and resulting in better text alignment generations. To further improve the prompt coherence we introduce the Reweighting Attention Score Guidance (RASG) mechanism seamlessly integrating a post-hoc sampling strategy into general form of DDIM to prevent out-of-distribution latent shifts. Moreover, HD-Painter allows extension to larger scales by introducing a specialized super-resolution technique customized for inpainting, enabling the completion of missing regions in images of up to 2K resolution. Our experiments demonstrate that HD-Painter surpasses existing state-of-the-art approaches qualitatively and quantitatively, achieving an impressive generation accuracy improvement of 61.4% vs 51.9%. We will make the codes publicly available at: https://github.com/Picsart-AI-Research/HD-Painter

HD-Painter: Inpainting de imágenes guiado por texto de alta resolución y fidelidad al prompt con modelos de difusión

HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models

Resumen

Support