Lernen von Flussfeldern in der Aufmerksamkeit für kontrollierbare Bildgenerierung von Personen
Learning Flow Fields in Attention for Controllable Person Image Generation
December 11, 2024
Autoren: Zijian Zhou, Shikun Liu, Xiao Han, Haozhe Liu, Kam Woh Ng, Tian Xie, Yuren Cong, Hang Li, Mengmeng Xu, Juan-Manuel Pérez-Rúa, Aditya Patel, Tao Xiang, Miaojing Shi, Sen He
cs.AI
Zusammenfassung
Die generative Erstellung von steuerbaren Personbildern zielt darauf ab, ein Personbild unter Bezugnahme auf Referenzbilder zu generieren, um präzise Kontrolle über das Erscheinungsbild oder die Pose der Person zu ermöglichen. Allerdings verzerren bisherige Methoden oft feinkörnige texturale Details des Referenzbildes, obwohl insgesamt eine hohe Bildqualität erreicht wird. Wir führen diese Verzerrungen auf unzureichende Aufmerksamkeit für entsprechende Regionen im Referenzbild zurück. Um dies zu beheben, schlagen wir daher vor, Flussfelder im Aufmerksamkeitsbereich (Leffa) zu erlernen, die das Ziel-Query explizit anweisen, während des Trainings auf den richtigen Referenzschlüssel im Aufmerksamkeitslayer zu achten. Konkret wird dies durch einen Regularisierungsverlust auf der Aufmerksamkeitskarte innerhalb eines diffusionsbasierten Baseline-Modells realisiert. Unsere umfangreichen Experimente zeigen, dass Leffa eine Spitzenleistung bei der Kontrolle des Erscheinungsbilds (virtuelles Anprobieren) und der Pose (Posetransfer) erreicht, wodurch feinkörnige Detailverzerrungen signifikant reduziert werden, während die hohe Bildqualität beibehalten wird. Darüber hinaus zeigen wir, dass unser Verlust modellagnostisch ist und zur Verbesserung der Leistung anderer Diffusionsmodelle verwendet werden kann.
English
Controllable person image generation aims to generate a person image
conditioned on reference images, allowing precise control over the person's
appearance or pose. However, prior methods often distort fine-grained textural
details from the reference image, despite achieving high overall image quality.
We attribute these distortions to inadequate attention to corresponding regions
in the reference image. To address this, we thereby propose learning flow
fields in attention (Leffa), which explicitly guides the target query to attend
to the correct reference key in the attention layer during training.
Specifically, it is realized via a regularization loss on top of the attention
map within a diffusion-based baseline. Our extensive experiments show that
Leffa achieves state-of-the-art performance in controlling appearance (virtual
try-on) and pose (pose transfer), significantly reducing fine-grained detail
distortion while maintaining high image quality. Additionally, we show that our
loss is model-agnostic and can be used to improve the performance of other
diffusion models.Summary
AI-Generated Summary