HD-Painter: Высококачественное и точное восстановление изображений с текстовым управлением на основе диффузионных моделей
HD-Painter: High-Resolution and Prompt-Faithful Text-Guided Image Inpainting with Diffusion Models
December 21, 2023
Авторы: Hayk Manukyan, Andranik Sargsyan, Barsegh Atanyan, Zhangyang Wang, Shant Navasardyan, Humphrey Shi
cs.AI
Аннотация
Недавние достижения в области текстово-управляемого восстановления изображений, основанные на беспрецедентном успехе диффузионных моделей "текст-в-изображение", привели к исключительно реалистичным и визуально правдоподобным результатам. Однако в современных моделях восстановления изображений на основе текста все еще есть значительный потенциал для улучшения, особенно в более точном согласовании восстановленной области с пользовательскими запросами и выполнении восстановления в высоком разрешении. В связи с этим в данной статье мы представляем HD-Painter — полностью не требующий обучения подход, который точно следует запросам и масштабируется до восстановления изображений в высоком разрешении. Для этого мы разработали слой Prompt-Aware Introverted Attention (PAIntA), который усиливает показатели самовнимания с помощью информации из запроса, что приводит к более точному согласованию с текстом. Для дальнейшего улучшения согласованности с запросом мы вводим механизм Reweighting Attention Score Guidance (RASG), который бесшовно интегрирует стратегию пост-обработки в общую форму DDIM, предотвращая сдвиги латентных переменных за пределы распределения. Кроме того, HD-Painter позволяет масштабироваться до больших размеров благодаря специализированной технике супер-разрешения, адаптированной для восстановления изображений, что позволяет заполнять отсутствующие области в изображениях с разрешением до 2K. Наши эксперименты показывают, что HD-Painter превосходит существующие передовые подходы как качественно, так и количественно, достигая впечатляющего улучшения точности генерации на 61,4% против 51,9%. Мы опубликуем код по адресу: https://github.com/Picsart-AI-Research/HD-Painter.
English
Recent progress in text-guided image inpainting, based on the unprecedented
success of text-to-image diffusion models, has led to exceptionally realistic
and visually plausible results. However, there is still significant potential
for improvement in current text-to-image inpainting models, particularly in
better aligning the inpainted area with user prompts and performing
high-resolution inpainting. Therefore, in this paper we introduce HD-Painter, a
completely training-free approach that accurately follows to prompts and
coherently scales to high-resolution image inpainting. To this end, we design
the Prompt-Aware Introverted Attention (PAIntA) layer enhancing self-attention
scores by prompt information and resulting in better text alignment
generations. To further improve the prompt coherence we introduce the
Reweighting Attention Score Guidance (RASG) mechanism seamlessly integrating a
post-hoc sampling strategy into general form of DDIM to prevent
out-of-distribution latent shifts. Moreover, HD-Painter allows extension to
larger scales by introducing a specialized super-resolution technique
customized for inpainting, enabling the completion of missing regions in images
of up to 2K resolution. Our experiments demonstrate that HD-Painter surpasses
existing state-of-the-art approaches qualitatively and quantitatively,
achieving an impressive generation accuracy improvement of 61.4% vs 51.9%. We
will make the codes publicly available at:
https://github.com/Picsart-AI-Research/HD-Painter