TryOnDiffusion : L'Histoire de Deux UNets

papers.abstract

Étant donné deux images représentant une personne et un vêtement porté par une autre personne, notre objectif est de générer une visualisation de la manière dont le vêtement pourrait apparaître sur la personne d'entrée. Un défi majeur consiste à synthétiser une visualisation photoréaliste préservant les détails du vêtement, tout en déformant celui-ci pour s'adapter à un changement significatif de posture et de morphologie entre les sujets. Les méthodes précédentes se concentrent soit sur la préservation des détails du vêtement sans variation efficace de la posture et de la morphologie, soit permettent un essayage avec la posture et la morphologie souhaitées mais manquent de détails vestimentaires. Dans cet article, nous proposons une architecture basée sur la diffusion qui unifie deux UNets (appelée Parallel-UNet), ce qui nous permet de préserver les détails du vêtement et de déformer celui-ci pour un changement significatif de posture et de morphologie dans un seul réseau. Les idées clés derrière Parallel-UNet incluent : 1) le vêtement est déformé implicitement via un mécanisme d'attention croisée, 2) la déformation du vêtement et le mélange avec la personne se produisent dans le cadre d'un processus unifié plutôt que d'une séquence de deux tâches distinctes. Les résultats expérimentaux indiquent que TryOnDiffusion atteint des performances de pointe à la fois qualitativement et quantitativement.

English

Given two images depicting a person and a garment worn by another person, our goal is to generate a visualization of how the garment might look on the input person. A key challenge is to synthesize a photorealistic detail-preserving visualization of the garment, while warping the garment to accommodate a significant body pose and shape change across the subjects. Previous methods either focus on garment detail preservation without effective pose and shape variation, or allow try-on with the desired shape and pose but lack garment details. In this paper, we propose a diffusion-based architecture that unifies two UNets (referred to as Parallel-UNet), which allows us to preserve garment details and warp the garment for significant pose and body change in a single network. The key ideas behind Parallel-UNet include: 1) garment is warped implicitly via a cross attention mechanism, 2) garment warp and person blend happen as part of a unified process as opposed to a sequence of two separate tasks. Experimental results indicate that TryOnDiffusion achieves state-of-the-art performance both qualitatively and quantitatively.

TryOnDiffusion : L'Histoire de Deux UNets

TryOnDiffusion: A Tale of Two UNets

papers.abstract

Support