ChatPaper.aiChatPaper

HD-Painter: Hoogwaardige en prompt-getrouwe tekstgestuurde beeldinpaintin met diffusiemodellen

HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models

December 21, 2023
Auteurs: Hayk Manukyan, Andranik Sargsyan, Barsegh Atanyan, Zhangyang Wang, Shant Navasardyan, Humphrey Shi
cs.AI

Samenvatting

Recente vooruitgang in tekstgeleide beeldinpaint, gebaseerd op de ongekende succes van tekst-naar-beeld diffusiemodellen, heeft geleid tot uitzonderlijk realistische en visueel plausibele resultaten. Er is echter nog steeds aanzienlijk potentieel voor verbetering in huidige tekst-naar-beeld inpaintmodellen, met name in het beter afstemmen van de ingevulde gebieden op gebruikersprompts en het uitvoeren van hoogwaardige inpaint. Daarom introduceren we in dit artikel HD-Painter, een volledig trainingsvrije aanpak die nauwkeurig prompts volgt en coherent schaalt naar hoogwaardige beeldinpaint. Hiertoe ontwerpen we de Prompt-Aware Introverted Attention (PAIntA) laag die zelf-attentiescores versterkt met promptinformatie en resulteert in betere tekstafstemming generaties. Om de promptcoherentie verder te verbeteren introduceren we het Reweighting Attention Score Guidance (RASG) mechanisme dat naadloos een post-hoc samplingstrategie integreert in de algemene vorm van DDIM om out-of-distribution latente verschuivingen te voorkomen. Bovendien maakt HD-Painter uitbreiding naar grotere schalen mogelijk door een gespecialiseerde superresolutietechniek te introduceren die is aangepast voor inpaint, waardoor het mogelijk wordt om ontbrekende gebieden in beelden van tot 2K resolutie te voltooien. Onze experimenten tonen aan dat HD-Painter bestaande state-of-the-art benaderingen kwalitatief en kwantitatief overtreft, met een indrukwekkende verbetering in generatie nauwkeurigheid van 61,4% vs 51,9%. We zullen de codes openbaar beschikbaar maken op: https://github.com/Picsart-AI-Research/HD-Painter
English
Recent progress in text-guided image inpainting, based on the unprecedented success of text-to-image diffusion models, has led to exceptionally realistic and visually plausible results. However, there is still significant potential for improvement in current text-to-image inpainting models, particularly in better aligning the inpainted area with user prompts and performing high-resolution inpainting. Therefore, in this paper we introduce HD-Painter, a completely training-free approach that accurately follows to prompts and coherently scales to high-resolution image inpainting. To this end, we design the Prompt-Aware Introverted Attention (PAIntA) layer enhancing self-attention scores by prompt information and resulting in better text alignment generations. To further improve the prompt coherence we introduce the Reweighting Attention Score Guidance (RASG) mechanism seamlessly integrating a post-hoc sampling strategy into general form of DDIM to prevent out-of-distribution latent shifts. Moreover, HD-Painter allows extension to larger scales by introducing a specialized super-resolution technique customized for inpainting, enabling the completion of missing regions in images of up to 2K resolution. Our experiments demonstrate that HD-Painter surpasses existing state-of-the-art approaches qualitatively and quantitatively, achieving an impressive generation accuracy improvement of 61.4% vs 51.9%. We will make the codes publicly available at: https://github.com/Picsart-AI-Research/HD-Painter
PDF172December 15, 2024