HD-Painter: Inpainting di Immagini Guidato da Testo ad Alta Risoluzione e Fedele al Prompt con Modelli di Diffusione
HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models
December 21, 2023
Autori: Hayk Manukyan, Andranik Sargsyan, Barsegh Atanyan, Zhangyang Wang, Shant Navasardyan, Humphrey Shi
cs.AI
Abstract
I recenti progressi nell'inpainting guidato da testo, basati sul successo senza precedenti dei modelli di diffusione testo-immagine, hanno portato a risultati eccezionalmente realistici e visivamente plausibili. Tuttavia, c'è ancora un significativo margine di miglioramento nei modelli attuali di inpainting testo-immagine, in particolare nel meglio allineare l'area inpainting con i prompt dell'utente e nell'eseguire inpainting ad alta risoluzione. Pertanto, in questo articolo introduciamo HD-Painter, un approccio completamente privo di addestramento che segue accuratamente i prompt e si scala coerentemente all'inpainting di immagini ad alta risoluzione. A tal fine, progettiamo il livello Prompt-Aware Introverted Attention (PAIntA) che migliora i punteggi di self-attention con le informazioni del prompt, ottenendo generazioni con un migliore allineamento al testo. Per ulteriormente migliorare la coerenza del prompt, introduciamo il meccanismo Reweighting Attention Score Guidance (RASG) che integra perfettamente una strategia di campionamento post-hoc nella forma generale di DDIM per prevenire spostamenti latenti fuori distribuzione. Inoltre, HD-Painter consente l'estensione a scale più grandi introducendo una tecnica di super-risoluzione specializzata e personalizzata per l'inpainting, permettendo il completamento di regioni mancanti in immagini fino a risoluzione 2K. I nostri esperimenti dimostrano che HD-Painter supera qualitativamente e quantitativamente gli approcci state-of-the-art esistenti, ottenendo un impressionante miglioramento dell'accuratezza di generazione del 61,4% rispetto al 51,9%. Renderemo i codici pubblicamente disponibili all'indirizzo: https://github.com/Picsart-AI-Research/HD-Painter
English
Recent progress in text-guided image inpainting, based on the unprecedented
success of text-to-image diffusion models, has led to exceptionally realistic
and visually plausible results. However, there is still significant potential
for improvement in current text-to-image inpainting models, particularly in
better aligning the inpainted area with user prompts and performing
high-resolution inpainting. Therefore, in this paper we introduce HD-Painter, a
completely training-free approach that accurately follows to prompts and
coherently scales to high-resolution image inpainting. To this end, we design
the Prompt-Aware Introverted Attention (PAIntA) layer enhancing self-attention
scores by prompt information and resulting in better text alignment
generations. To further improve the prompt coherence we introduce the
Reweighting Attention Score Guidance (RASG) mechanism seamlessly integrating a
post-hoc sampling strategy into general form of DDIM to prevent
out-of-distribution latent shifts. Moreover, HD-Painter allows extension to
larger scales by introducing a specialized super-resolution technique
customized for inpainting, enabling the completion of missing regions in images
of up to 2K resolution. Our experiments demonstrate that HD-Painter surpasses
existing state-of-the-art approaches qualitatively and quantitatively,
achieving an impressive generation accuracy improvement of 61.4% vs 51.9%. We
will make the codes publicly available at:
https://github.com/Picsart-AI-Research/HD-Painter