TryOnDiffusion : L'Histoire de Deux UNets
TryOnDiffusion: A Tale of Two UNets
June 14, 2023
Auteurs: Luyang Zhu, Dawei Yang, Tyler Zhu, Fitsum Reda, William Chan, Chitwan Saharia, Mohammad Norouzi, Ira Kemelmacher-Shlizerman
cs.AI
Résumé
Étant donné deux images représentant une personne et un vêtement porté par une autre personne, notre objectif est de générer une visualisation de la manière dont le vêtement pourrait apparaître sur la personne d'entrée. Un défi majeur consiste à synthétiser une visualisation photoréaliste préservant les détails du vêtement, tout en déformant celui-ci pour s'adapter à un changement significatif de posture et de morphologie entre les sujets. Les méthodes précédentes se concentrent soit sur la préservation des détails du vêtement sans variation efficace de la posture et de la morphologie, soit permettent un essayage avec la posture et la morphologie souhaitées mais manquent de détails vestimentaires. Dans cet article, nous proposons une architecture basée sur la diffusion qui unifie deux UNets (appelée Parallel-UNet), ce qui nous permet de préserver les détails du vêtement et de déformer celui-ci pour un changement significatif de posture et de morphologie dans un seul réseau. Les idées clés derrière Parallel-UNet incluent : 1) le vêtement est déformé implicitement via un mécanisme d'attention croisée, 2) la déformation du vêtement et le mélange avec la personne se produisent dans le cadre d'un processus unifié plutôt que d'une séquence de deux tâches distinctes. Les résultats expérimentaux indiquent que TryOnDiffusion atteint des performances de pointe à la fois qualitativement et quantitativement.
English
Given two images depicting a person and a garment worn by another person, our
goal is to generate a visualization of how the garment might look on the input
person. A key challenge is to synthesize a photorealistic detail-preserving
visualization of the garment, while warping the garment to accommodate a
significant body pose and shape change across the subjects. Previous methods
either focus on garment detail preservation without effective pose and shape
variation, or allow try-on with the desired shape and pose but lack garment
details. In this paper, we propose a diffusion-based architecture that unifies
two UNets (referred to as Parallel-UNet), which allows us to preserve garment
details and warp the garment for significant pose and body change in a single
network. The key ideas behind Parallel-UNet include: 1) garment is warped
implicitly via a cross attention mechanism, 2) garment warp and person blend
happen as part of a unified process as opposed to a sequence of two separate
tasks. Experimental results indicate that TryOnDiffusion achieves
state-of-the-art performance both qualitatively and quantitatively.