ChatPaper.aiChatPaper

HD-Painter: Hochauflösende und promptgetreue textgesteuerte Bildinpainting mit Diffusionsmodellen

HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models

December 21, 2023
papers.authors: Hayk Manukyan, Andranik Sargsyan, Barsegh Atanyan, Zhangyang Wang, Shant Navasardyan, Humphrey Shi
cs.AI

papers.abstract

Jüngste Fortschritte im Bereich der textgesteuerten Bildinpainting, basierend auf dem beispiellosen Erfolg von Text-zu-Bild-Diffusionsmodellen, haben zu außergewöhnlich realistischen und visuell plausiblen Ergebnissen geführt. Dennoch besteht in den derzeitigen Text-zu-Bild-Inpainting-Modellen noch erhebliches Verbesserungspotenzial, insbesondere bei der besseren Ausrichtung der inpainting-Bereiche auf Benutzeranweisungen und der Durchführung von Hochauflösungs-Inpainting. Daher stellen wir in diesem Artikel HD-Painter vor, einen vollständig trainingsfreien Ansatz, der präzise auf Anweisungen reagiert und sich nahtlos auf hochauflösendes Bildinpainting skalieren lässt. Zu diesem Zweck entwickeln wir die Prompt-Aware Introverted Attention (PAIntA)-Schicht, die Selbstaufmerksamkeitswerte durch Prompt-Informationen verbessert und zu einer besseren Textausrichtung bei der Generierung führt. Um die Prompt-Kohärenz weiter zu verbessern, führen wir den Reweighting Attention Score Guidance (RASG)-Mechanismus ein, der eine nachträgliche Sampling-Strategie nahtlos in die allgemeine Form von DDIM integriert, um latente Verschiebungen außerhalb der Verteilung zu verhindern. Darüber hinaus ermöglicht HD-Painter die Erweiterung auf größere Skalen durch die Einführung einer spezialisierten Super-Resolution-Technik, die für Inpainting maßgeschneidert ist und die Vervollständigung fehlender Regionen in Bildern mit einer Auflösung von bis zu 2K ermöglicht. Unsere Experimente zeigen, dass HD-Painter bestehende state-of-the-art-Ansätze qualitativ und quantitativ übertrifft und eine beeindruckende Verbesserung der Generierungsgenauigkeit von 61,4 % gegenüber 51,9 % erreicht. Wir werden die Codes öffentlich verfügbar machen unter: https://github.com/Picsart-AI-Research/HD-Painter
English
Recent progress in text-guided image inpainting, based on the unprecedented success of text-to-image diffusion models, has led to exceptionally realistic and visually plausible results. However, there is still significant potential for improvement in current text-to-image inpainting models, particularly in better aligning the inpainted area with user prompts and performing high-resolution inpainting. Therefore, in this paper we introduce HD-Painter, a completely training-free approach that accurately follows to prompts and coherently scales to high-resolution image inpainting. To this end, we design the Prompt-Aware Introverted Attention (PAIntA) layer enhancing self-attention scores by prompt information and resulting in better text alignment generations. To further improve the prompt coherence we introduce the Reweighting Attention Score Guidance (RASG) mechanism seamlessly integrating a post-hoc sampling strategy into general form of DDIM to prevent out-of-distribution latent shifts. Moreover, HD-Painter allows extension to larger scales by introducing a specialized super-resolution technique customized for inpainting, enabling the completion of missing regions in images of up to 2K resolution. Our experiments demonstrate that HD-Painter surpasses existing state-of-the-art approaches qualitatively and quantitatively, achieving an impressive generation accuracy improvement of 61.4% vs 51.9%. We will make the codes publicly available at: https://github.com/Picsart-AI-Research/HD-Painter
PDF182December 15, 2024