HD-Painter: Inpainting di Immagini Guidato da Testo ad Alta Risoluzione e Fedele al Prompt con Modelli di Diffusione

Abstract

I recenti progressi nell'inpainting guidato da testo, basati sul successo senza precedenti dei modelli di diffusione testo-immagine, hanno portato a risultati eccezionalmente realistici e visivamente plausibili. Tuttavia, c'è ancora un significativo margine di miglioramento nei modelli attuali di inpainting testo-immagine, in particolare nel meglio allineare l'area inpainting con i prompt dell'utente e nell'eseguire inpainting ad alta risoluzione. Pertanto, in questo articolo introduciamo HD-Painter, un approccio completamente privo di addestramento che segue accuratamente i prompt e si scala coerentemente all'inpainting di immagini ad alta risoluzione. A tal fine, progettiamo il livello Prompt-Aware Introverted Attention (PAIntA) che migliora i punteggi di self-attention con le informazioni del prompt, ottenendo generazioni con un migliore allineamento al testo. Per ulteriormente migliorare la coerenza del prompt, introduciamo il meccanismo Reweighting Attention Score Guidance (RASG) che integra perfettamente una strategia di campionamento post-hoc nella forma generale di DDIM per prevenire spostamenti latenti fuori distribuzione. Inoltre, HD-Painter consente l'estensione a scale più grandi introducendo una tecnica di super-risoluzione specializzata e personalizzata per l'inpainting, permettendo il completamento di regioni mancanti in immagini fino a risoluzione 2K. I nostri esperimenti dimostrano che HD-Painter supera qualitativamente e quantitativamente gli approcci state-of-the-art esistenti, ottenendo un impressionante miglioramento dell'accuratezza di generazione del 61,4% rispetto al 51,9%. Renderemo i codici pubblicamente disponibili all'indirizzo: https://github.com/Picsart-AI-Research/HD-Painter

English

Recent progress in text-guided image inpainting, based on the unprecedented success of text-to-image diffusion models, has led to exceptionally realistic and visually plausible results. However, there is still significant potential for improvement in current text-to-image inpainting models, particularly in better aligning the inpainted area with user prompts and performing high-resolution inpainting. Therefore, in this paper we introduce HD-Painter, a completely training-free approach that accurately follows to prompts and coherently scales to high-resolution image inpainting. To this end, we design the Prompt-Aware Introverted Attention (PAIntA) layer enhancing self-attention scores by prompt information and resulting in better text alignment generations. To further improve the prompt coherence we introduce the Reweighting Attention Score Guidance (RASG) mechanism seamlessly integrating a post-hoc sampling strategy into general form of DDIM to prevent out-of-distribution latent shifts. Moreover, HD-Painter allows extension to larger scales by introducing a specialized super-resolution technique customized for inpainting, enabling the completion of missing regions in images of up to 2K resolution. Our experiments demonstrate that HD-Painter surpasses existing state-of-the-art approaches qualitatively and quantitatively, achieving an impressive generation accuracy improvement of 61.4% vs 51.9%. We will make the codes publicly available at: https://github.com/Picsart-AI-Research/HD-Painter

HD-Painter: Inpainting di Immagini Guidato da Testo ad Alta Risoluzione e Fedele al Prompt con Modelli di Diffusione

HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models

Abstract

Support