TryOnDiffusion: Una Storia di Due UNet

Abstract

Date due immagini che raffigurano una persona e un indumento indossato da un'altra persona, il nostro obiettivo è generare una visualizzazione di come l'indumento potrebbe apparire sulla persona in input. Una sfida chiave è sintetizzare una visualizzazione fotorealistica che preservi i dettagli dell'indumento, deformando quest'ultimo per adattarsi a un significativo cambiamento nella postura e nella forma del corpo tra i soggetti. I metodi precedenti si concentrano sulla preservazione dei dettagli dell'indumento senza una variazione efficace della postura e della forma, oppure consentono la prova virtuale con la forma e la postura desiderate ma mancano di dettagli sull'indumento. In questo articolo, proponiamo un'architettura basata su diffusione che unifica due UNet (denominata Parallel-UNet), che ci permette di preservare i dettagli dell'indumento e deformarlo per un significativo cambiamento nella postura e nel corpo all'interno di una singola rete. Le idee chiave alla base di Parallel-UNet includono: 1) l'indumento viene deformato implicitamente tramite un meccanismo di cross-attention, 2) la deformazione dell'indumento e la fusione con la persona avvengono come parte di un processo unificato anziché come una sequenza di due compiti separati. I risultati sperimentali indicano che TryOnDiffusion raggiunge prestazioni all'avanguardia sia qualitativamente che quantitativamente.

English

Given two images depicting a person and a garment worn by another person, our goal is to generate a visualization of how the garment might look on the input person. A key challenge is to synthesize a photorealistic detail-preserving visualization of the garment, while warping the garment to accommodate a significant body pose and shape change across the subjects. Previous methods either focus on garment detail preservation without effective pose and shape variation, or allow try-on with the desired shape and pose but lack garment details. In this paper, we propose a diffusion-based architecture that unifies two UNets (referred to as Parallel-UNet), which allows us to preserve garment details and warp the garment for significant pose and body change in a single network. The key ideas behind Parallel-UNet include: 1) garment is warped implicitly via a cross attention mechanism, 2) garment warp and person blend happen as part of a unified process as opposed to a sequence of two separate tasks. Experimental results indicate that TryOnDiffusion achieves state-of-the-art performance both qualitatively and quantitatively.

TryOnDiffusion: Una Storia di Due UNet

TryOnDiffusion: A Tale of Two UNets

Abstract

Support