HD-Painter: 拡散モデルを用いた高解像度かつプロンプト忠実なテキストガイド画像修復
HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models
December 21, 2023
著者: Hayk Manukyan, Andranik Sargsyan, Barsegh Atanyan, Zhangyang Wang, Shant Navasardyan, Humphrey Shi
cs.AI
要旨
テキストガイドによる画像インペインティングの分野では、テキストから画像への拡散モデルの未曾有の成功に基づき、非常に現実的で視覚的に妥当な結果が得られるようになりました。しかし、現在のテキストから画像へのインペインティングモデルには、特にインペイント領域とユーザープロンプトの整合性を向上させ、高解像度でのインペインティングを実現する点で、まだ大きな改善の余地があります。そこで本論文では、プロンプトを正確に追従し、高解像度画像インペインティングにシームレスにスケールする、完全にトレーニング不要なアプローチであるHD-Painterを紹介します。この目的のために、プロンプト情報を活用して自己注意スコアを強化し、テキストとの整合性を向上させるPrompt-Aware Introverted Attention(PAIntA)層を設計しました。さらに、プロンプトの一貫性を向上させるために、Reweighting Attention Score Guidance(RASG)メカニズムを導入し、DDIMの一般的な形式に事後サンプリング戦略をシームレスに統合して、分布外の潜在シフトを防ぎます。さらに、HD-Painterは、インペインティングに特化した超解像技術を導入することで、最大2K解像度の画像における欠損領域の補完を可能にします。実験の結果、HD-Painterは既存の最先端アプローチを質的・量的に凌駕し、生成精度において61.4%対51.9%という印象的な改善を達成しました。コードは以下のURLで公開予定です:
https://github.com/Picsart-AI-Research/HD-Painter
English
Recent progress in text-guided image inpainting, based on the unprecedented
success of text-to-image diffusion models, has led to exceptionally realistic
and visually plausible results. However, there is still significant potential
for improvement in current text-to-image inpainting models, particularly in
better aligning the inpainted area with user prompts and performing
high-resolution inpainting. Therefore, in this paper we introduce HD-Painter, a
completely training-free approach that accurately follows to prompts and
coherently scales to high-resolution image inpainting. To this end, we design
the Prompt-Aware Introverted Attention (PAIntA) layer enhancing self-attention
scores by prompt information and resulting in better text alignment
generations. To further improve the prompt coherence we introduce the
Reweighting Attention Score Guidance (RASG) mechanism seamlessly integrating a
post-hoc sampling strategy into general form of DDIM to prevent
out-of-distribution latent shifts. Moreover, HD-Painter allows extension to
larger scales by introducing a specialized super-resolution technique
customized for inpainting, enabling the completion of missing regions in images
of up to 2K resolution. Our experiments demonstrate that HD-Painter surpasses
existing state-of-the-art approaches qualitatively and quantitatively,
achieving an impressive generation accuracy improvement of 61.4% vs 51.9%. We
will make the codes publicly available at:
https://github.com/Picsart-AI-Research/HD-Painter