TryOnDiffusion: Una Storia di Due UNet
TryOnDiffusion: A Tale of Two UNets
June 14, 2023
Autori: Luyang Zhu, Dawei Yang, Tyler Zhu, Fitsum Reda, William Chan, Chitwan Saharia, Mohammad Norouzi, Ira Kemelmacher-Shlizerman
cs.AI
Abstract
Date due immagini che raffigurano una persona e un indumento indossato da un'altra persona, il nostro obiettivo è generare una visualizzazione di come l'indumento potrebbe apparire sulla persona in input. Una sfida chiave è sintetizzare una visualizzazione fotorealistica che preservi i dettagli dell'indumento, deformando quest'ultimo per adattarsi a un significativo cambiamento nella postura e nella forma del corpo tra i soggetti. I metodi precedenti si concentrano sulla preservazione dei dettagli dell'indumento senza una variazione efficace della postura e della forma, oppure consentono la prova virtuale con la forma e la postura desiderate ma mancano di dettagli sull'indumento. In questo articolo, proponiamo un'architettura basata su diffusione che unifica due UNet (denominata Parallel-UNet), che ci permette di preservare i dettagli dell'indumento e deformarlo per un significativo cambiamento nella postura e nel corpo all'interno di una singola rete. Le idee chiave alla base di Parallel-UNet includono: 1) l'indumento viene deformato implicitamente tramite un meccanismo di cross-attention, 2) la deformazione dell'indumento e la fusione con la persona avvengono come parte di un processo unificato anziché come una sequenza di due compiti separati. I risultati sperimentali indicano che TryOnDiffusion raggiunge prestazioni all'avanguardia sia qualitativamente che quantitativamente.
English
Given two images depicting a person and a garment worn by another person, our
goal is to generate a visualization of how the garment might look on the input
person. A key challenge is to synthesize a photorealistic detail-preserving
visualization of the garment, while warping the garment to accommodate a
significant body pose and shape change across the subjects. Previous methods
either focus on garment detail preservation without effective pose and shape
variation, or allow try-on with the desired shape and pose but lack garment
details. In this paper, we propose a diffusion-based architecture that unifies
two UNets (referred to as Parallel-UNet), which allows us to preserve garment
details and warp the garment for significant pose and body change in a single
network. The key ideas behind Parallel-UNet include: 1) garment is warped
implicitly via a cross attention mechanism, 2) garment warp and person blend
happen as part of a unified process as opposed to a sequence of two separate
tasks. Experimental results indicate that TryOnDiffusion achieves
state-of-the-art performance both qualitatively and quantitatively.