HD-Painter: Hoogwaardige en prompt-getrouwe tekstgestuurde beeldinpaintin met diffusiemodellen
HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models
December 21, 2023
Auteurs: Hayk Manukyan, Andranik Sargsyan, Barsegh Atanyan, Zhangyang Wang, Shant Navasardyan, Humphrey Shi
cs.AI
Samenvatting
Recente vooruitgang in tekstgeleide beeldinpaint, gebaseerd op de ongekende
succes van tekst-naar-beeld diffusiemodellen, heeft geleid tot uitzonderlijk
realistische en visueel plausibele resultaten. Er is echter nog steeds aanzienlijk
potentieel voor verbetering in huidige tekst-naar-beeld inpaintmodellen, met name
in het beter afstemmen van de ingevulde gebieden op gebruikersprompts en het uitvoeren
van hoogwaardige inpaint. Daarom introduceren we in dit artikel HD-Painter, een
volledig trainingsvrije aanpak die nauwkeurig prompts volgt en coherent
schaalt naar hoogwaardige beeldinpaint. Hiertoe ontwerpen we de
Prompt-Aware Introverted Attention (PAIntA) laag die zelf-attentiescores versterkt
met promptinformatie en resulteert in betere tekstafstemming
generaties. Om de promptcoherentie verder te verbeteren introduceren we het
Reweighting Attention Score Guidance (RASG) mechanisme dat naadloos een
post-hoc samplingstrategie integreert in de algemene vorm van DDIM om
out-of-distribution latente verschuivingen te voorkomen. Bovendien maakt HD-Painter uitbreiding naar
grotere schalen mogelijk door een gespecialiseerde superresolutietechniek te introduceren
die is aangepast voor inpaint, waardoor het mogelijk wordt om ontbrekende gebieden in beelden
van tot 2K resolutie te voltooien. Onze experimenten tonen aan dat HD-Painter bestaande
state-of-the-art benaderingen kwalitatief en kwantitatief overtreft,
met een indrukwekkende verbetering in generatie nauwkeurigheid van 61,4% vs 51,9%. We
zullen de codes openbaar beschikbaar maken op:
https://github.com/Picsart-AI-Research/HD-Painter
English
Recent progress in text-guided image inpainting, based on the unprecedented
success of text-to-image diffusion models, has led to exceptionally realistic
and visually plausible results. However, there is still significant potential
for improvement in current text-to-image inpainting models, particularly in
better aligning the inpainted area with user prompts and performing
high-resolution inpainting. Therefore, in this paper we introduce HD-Painter, a
completely training-free approach that accurately follows to prompts and
coherently scales to high-resolution image inpainting. To this end, we design
the Prompt-Aware Introverted Attention (PAIntA) layer enhancing self-attention
scores by prompt information and resulting in better text alignment
generations. To further improve the prompt coherence we introduce the
Reweighting Attention Score Guidance (RASG) mechanism seamlessly integrating a
post-hoc sampling strategy into general form of DDIM to prevent
out-of-distribution latent shifts. Moreover, HD-Painter allows extension to
larger scales by introducing a specialized super-resolution technique
customized for inpainting, enabling the completion of missing regions in images
of up to 2K resolution. Our experiments demonstrate that HD-Painter surpasses
existing state-of-the-art approaches qualitatively and quantitatively,
achieving an impressive generation accuracy improvement of 61.4% vs 51.9%. We
will make the codes publicly available at:
https://github.com/Picsart-AI-Research/HD-Painter