TryOnDiffusion: Eine Geschichte zweier UNets
TryOnDiffusion: A Tale of Two UNets
June 14, 2023
Autoren: Luyang Zhu, Dawei Yang, Tyler Zhu, Fitsum Reda, William Chan, Chitwan Saharia, Mohammad Norouzi, Ira Kemelmacher-Shlizerman
cs.AI
Zusammenfassung
Gegeben zwei Bilder, die eine Person und ein Kleidungsstück, das von einer anderen Person getragen wird, darstellen, besteht unser Ziel darin, eine Visualisierung zu erzeugen, wie das Kleidungsstück auf der Eingabeperson aussehen könnte. Eine zentrale Herausforderung besteht darin, eine fotorealistische, detailerhaltende Visualisierung des Kleidungsstücks zu synthetisieren, während das Kleidungsstück so verformt wird, dass es eine signifikante Veränderung der Körperhaltung und -form zwischen den Personen berücksichtigt. Bisherige Methoden konzentrieren sich entweder auf die Erhaltung der Kleidungsdetails ohne effektive Variation von Haltung und Form oder ermöglichen das Anprobieren mit der gewünschten Form und Haltung, jedoch ohne die Kleidungsdetails. In diesem Artikel schlagen wir eine diffusionsbasierte Architektur vor, die zwei UNets vereint (als Parallel-UNet bezeichnet), wodurch wir Kleidungsdetails erhalten und das Kleidungsstück für signifikante Haltungs- und Körperveränderungen in einem einzigen Netzwerk verformen können. Die Schlüsselideen hinter Parallel-UNet umfassen: 1) das Kleidungsstück wird implizit über einen Cross-Attention-Mechanismus verformt, 2) die Verformung des Kleidungsstücks und die Verschmelzung mit der Person erfolgen als Teil eines einheitlichen Prozesses im Gegensatz zu einer Abfolge von zwei separaten Aufgaben. Experimentelle Ergebnisse zeigen, dass TryOnDiffusion sowohl qualitativ als auch quantitativ state-of-the-art Leistungen erzielt.
English
Given two images depicting a person and a garment worn by another person, our
goal is to generate a visualization of how the garment might look on the input
person. A key challenge is to synthesize a photorealistic detail-preserving
visualization of the garment, while warping the garment to accommodate a
significant body pose and shape change across the subjects. Previous methods
either focus on garment detail preservation without effective pose and shape
variation, or allow try-on with the desired shape and pose but lack garment
details. In this paper, we propose a diffusion-based architecture that unifies
two UNets (referred to as Parallel-UNet), which allows us to preserve garment
details and warp the garment for significant pose and body change in a single
network. The key ideas behind Parallel-UNet include: 1) garment is warped
implicitly via a cross attention mechanism, 2) garment warp and person blend
happen as part of a unified process as opposed to a sequence of two separate
tasks. Experimental results indicate that TryOnDiffusion achieves
state-of-the-art performance both qualitatively and quantitatively.