TryOnDiffusion: Een Verhaal van Twee UNets
TryOnDiffusion: A Tale of Two UNets
June 14, 2023
Auteurs: Luyang Zhu, Dawei Yang, Tyler Zhu, Fitsum Reda, William Chan, Chitwan Saharia, Mohammad Norouzi, Ira Kemelmacher-Shlizerman
cs.AI
Samenvatting
Gegeven twee afbeeldingen waarop een persoon en een kledingstuk gedragen door een andere persoon zijn afgebeeld, is ons doel een visualisatie te genereren van hoe het kledingstuk eruit zou zien op de ingevoerde persoon. Een belangrijke uitdaging is het synthetiseren van een fotorealistische, detailbehoudende visualisatie van het kledingstuk, terwijl het kledingstuk wordt vervormd om een significante verandering in lichaamshouding en -vorm tussen de personen te accommoderen. Eerdere methodes richten zich ofwel op het behoud van kledingdetails zonder effectieve variatie in houding en vorm, ofwel staan het passen van kleding met de gewenste vorm en houding toe, maar missen kledingdetails. In dit artikel stellen we een op diffusie gebaseerde architectuur voor die twee UNets verenigt (aangeduid als Parallel-UNet), waardoor we kledingdetails kunnen behouden en het kledingstuk kunnen vervormen voor een significante verandering in houding en lichaamsvorm in een enkel netwerk. De belangrijkste ideeën achter Parallel-UNet zijn: 1) het kledingstuk wordt impliciet vervormd via een cross-attention-mechanisme, 2) de vervorming van het kledingstuk en de blending met de persoon gebeuren als onderdeel van een geïntegreerd proces in plaats van als een reeks van twee afzonderlijke taken. Experimentele resultaten geven aan dat TryOnDiffusion zowel kwalitatief als kwantitatief state-of-the-art prestaties behaalt.
English
Given two images depicting a person and a garment worn by another person, our
goal is to generate a visualization of how the garment might look on the input
person. A key challenge is to synthesize a photorealistic detail-preserving
visualization of the garment, while warping the garment to accommodate a
significant body pose and shape change across the subjects. Previous methods
either focus on garment detail preservation without effective pose and shape
variation, or allow try-on with the desired shape and pose but lack garment
details. In this paper, we propose a diffusion-based architecture that unifies
two UNets (referred to as Parallel-UNet), which allows us to preserve garment
details and warp the garment for significant pose and body change in a single
network. The key ideas behind Parallel-UNet include: 1) garment is warped
implicitly via a cross attention mechanism, 2) garment warp and person blend
happen as part of a unified process as opposed to a sequence of two separate
tasks. Experimental results indicate that TryOnDiffusion achieves
state-of-the-art performance both qualitatively and quantitatively.