Lernen von Flussfeldern in der Aufmerksamkeit für kontrollierbare Bildgenerierung von Personen

Zusammenfassung

Die generative Erstellung von steuerbaren Personbildern zielt darauf ab, ein Personbild unter Bezugnahme auf Referenzbilder zu generieren, um präzise Kontrolle über das Erscheinungsbild oder die Pose der Person zu ermöglichen. Allerdings verzerren bisherige Methoden oft feinkörnige texturale Details des Referenzbildes, obwohl insgesamt eine hohe Bildqualität erreicht wird. Wir führen diese Verzerrungen auf unzureichende Aufmerksamkeit für entsprechende Regionen im Referenzbild zurück. Um dies zu beheben, schlagen wir daher vor, Flussfelder im Aufmerksamkeitsbereich (Leffa) zu erlernen, die das Ziel-Query explizit anweisen, während des Trainings auf den richtigen Referenzschlüssel im Aufmerksamkeitslayer zu achten. Konkret wird dies durch einen Regularisierungsverlust auf der Aufmerksamkeitskarte innerhalb eines diffusionsbasierten Baseline-Modells realisiert. Unsere umfangreichen Experimente zeigen, dass Leffa eine Spitzenleistung bei der Kontrolle des Erscheinungsbilds (virtuelles Anprobieren) und der Pose (Posetransfer) erreicht, wodurch feinkörnige Detailverzerrungen signifikant reduziert werden, während die hohe Bildqualität beibehalten wird. Darüber hinaus zeigen wir, dass unser Verlust modellagnostisch ist und zur Verbesserung der Leistung anderer Diffusionsmodelle verwendet werden kann.

English

Controllable person image generation aims to generate a person image conditioned on reference images, allowing precise control over the person's appearance or pose. However, prior methods often distort fine-grained textural details from the reference image, despite achieving high overall image quality. We attribute these distortions to inadequate attention to corresponding regions in the reference image. To address this, we thereby propose learning flow fields in attention (Leffa), which explicitly guides the target query to attend to the correct reference key in the attention layer during training. Specifically, it is realized via a regularization loss on top of the attention map within a diffusion-based baseline. Our extensive experiments show that Leffa achieves state-of-the-art performance in controlling appearance (virtual try-on) and pose (pose transfer), significantly reducing fine-grained detail distortion while maintaining high image quality. Additionally, we show that our loss is model-agnostic and can be used to improve the performance of other diffusion models.