ChatPaper.aiChatPaper

HD-Painter : Inpainting d'images guidé par texte à haute résolution et fidèle aux prompts avec des modèles de diffusion

HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models

December 21, 2023
Auteurs: Hayk Manukyan, Andranik Sargsyan, Barsegh Atanyan, Zhangyang Wang, Shant Navasardyan, Humphrey Shi
cs.AI

Résumé

Les récents progrès dans le domaine de la restauration d'images guidée par texte, basés sur le succès sans précédent des modèles de diffusion texte-à-image, ont conduit à des résultats exceptionnellement réalistes et visuellement plausibles. Cependant, il existe encore un potentiel significatif d'amélioration dans les modèles actuels de restauration texte-à-image, notamment en ce qui concerne un meilleur alignement des zones restaurées avec les instructions de l'utilisateur et la réalisation de restaurations en haute résolution. Par conséquent, dans cet article, nous présentons HD-Painter, une approche entièrement exempte d'entraînement qui suit précisément les instructions et s'adapte de manière cohérente à la restauration d'images en haute résolution. À cette fin, nous concevons la couche d'attention introvertie sensible aux instructions (PAIntA), qui améliore les scores d'auto-attention grâce aux informations des instructions, aboutissant à des générations mieux alignées avec le texte. Pour améliorer davantage la cohérence des instructions, nous introduisons le mécanisme de guidage des scores d'attention par re-pondération (RASG), intégrant de manière transparente une stratégie d'échantillonnage post-hoc dans la forme générale de DDIM pour éviter les décalages latents hors distribution. De plus, HD-Painter permet une extension à des échelles plus grandes grâce à une technique de super-résolution spécialement conçue pour la restauration, permettant de compléter les régions manquantes dans des images jusqu'à une résolution de 2K. Nos expériences démontrent que HD-Painter surpasse qualitativement et quantitativement les approches de pointe existantes, avec une amélioration impressionnante de la précision de génération de 61,4 % contre 51,9 %. Nous mettrons les codes à disposition publiquement à l'adresse suivante : https://github.com/Picsart-AI-Research/HD-Painter.
English
Recent progress in text-guided image inpainting, based on the unprecedented success of text-to-image diffusion models, has led to exceptionally realistic and visually plausible results. However, there is still significant potential for improvement in current text-to-image inpainting models, particularly in better aligning the inpainted area with user prompts and performing high-resolution inpainting. Therefore, in this paper we introduce HD-Painter, a completely training-free approach that accurately follows to prompts and coherently scales to high-resolution image inpainting. To this end, we design the Prompt-Aware Introverted Attention (PAIntA) layer enhancing self-attention scores by prompt information and resulting in better text alignment generations. To further improve the prompt coherence we introduce the Reweighting Attention Score Guidance (RASG) mechanism seamlessly integrating a post-hoc sampling strategy into general form of DDIM to prevent out-of-distribution latent shifts. Moreover, HD-Painter allows extension to larger scales by introducing a specialized super-resolution technique customized for inpainting, enabling the completion of missing regions in images of up to 2K resolution. Our experiments demonstrate that HD-Painter surpasses existing state-of-the-art approaches qualitatively and quantitatively, achieving an impressive generation accuracy improvement of 61.4% vs 51.9%. We will make the codes publicly available at: https://github.com/Picsart-AI-Research/HD-Painter
PDF172December 15, 2024