TryOnDiffusion: Uma História de Dois UNets
TryOnDiffusion: A Tale of Two UNets
June 14, 2023
Autores: Luyang Zhu, Dawei Yang, Tyler Zhu, Fitsum Reda, William Chan, Chitwan Saharia, Mohammad Norouzi, Ira Kemelmacher-Shlizerman
cs.AI
Resumo
Dadas duas imagens que retratam uma pessoa e uma peça de roupa vestida por outra pessoa, nosso objetivo é gerar uma visualização de como a peça de roupa poderia parecer na pessoa de entrada. Um desafio crucial é sintetizar uma visualização fotorealista que preserve os detalhes da peça de roupa, enquanto deforma a peça para acomodar uma mudança significativa na postura e na forma corporal entre os indivíduos. Métodos anteriores ou se concentram na preservação dos detalhes da peça de roupa sem variação eficaz de postura e forma, ou permitem a experimentação virtual com a forma e postura desejadas, mas carecem de detalhes na peça de roupa. Neste artigo, propomos uma arquitetura baseada em difusão que unifica duas UNets (denominada Parallel-UNet), o que nos permite preservar os detalhes da peça de roupa e deformá-la para uma mudança significativa de postura e corpo em uma única rede. As ideias-chave por trás do Parallel-UNet incluem: 1) a peça de roupa é deformada implicitamente por meio de um mecanismo de atenção cruzada, 2) a deformação da peça de roupa e a mesclagem com a pessoa ocorrem como parte de um processo unificado, em vez de uma sequência de duas tarefas separadas. Os resultados experimentais indicam que o TryOnDiffusion alcança desempenho de ponta tanto qualitativa quanto quantitativamente.
English
Given two images depicting a person and a garment worn by another person, our
goal is to generate a visualization of how the garment might look on the input
person. A key challenge is to synthesize a photorealistic detail-preserving
visualization of the garment, while warping the garment to accommodate a
significant body pose and shape change across the subjects. Previous methods
either focus on garment detail preservation without effective pose and shape
variation, or allow try-on with the desired shape and pose but lack garment
details. In this paper, we propose a diffusion-based architecture that unifies
two UNets (referred to as Parallel-UNet), which allows us to preserve garment
details and warp the garment for significant pose and body change in a single
network. The key ideas behind Parallel-UNet include: 1) garment is warped
implicitly via a cross attention mechanism, 2) garment warp and person blend
happen as part of a unified process as opposed to a sequence of two separate
tasks. Experimental results indicate that TryOnDiffusion achieves
state-of-the-art performance both qualitatively and quantitatively.