ChatPaper.aiChatPaper

TryOnDiffusion: Un Relato de Dos UNets

TryOnDiffusion: A Tale of Two UNets

June 14, 2023
Autores: Luyang Zhu, Dawei Yang, Tyler Zhu, Fitsum Reda, William Chan, Chitwan Saharia, Mohammad Norouzi, Ira Kemelmacher-Shlizerman
cs.AI

Resumen

Dadas dos imágenes que representan a una persona y una prenda de vestir usada por otra persona, nuestro objetivo es generar una visualización de cómo podría verse la prenda en la persona de entrada. Un desafío clave es sintetizar una visualización fotorrealista que preserve los detalles de la prenda, mientras se deforma la prenda para adaptarse a un cambio significativo en la postura y la forma del cuerpo entre los sujetos. Métodos anteriores se centran en la preservación de los detalles de la prenda sin una variación efectiva de la postura y la forma, o permiten probarse la prenda con la forma y postura deseadas pero carecen de detalles en la prenda. En este artículo, proponemos una arquitectura basada en difusión que unifica dos UNets (denominada Parallel-UNet), lo que nos permite preservar los detalles de la prenda y deformarla para un cambio significativo en la postura y el cuerpo en una sola red. Las ideas clave detrás de Parallel-UNet incluyen: 1) la prenda se deforma implícitamente mediante un mecanismo de atención cruzada, 2) la deformación de la prenda y la fusión con la persona ocurren como parte de un proceso unificado en lugar de una secuencia de dos tareas separadas. Los resultados experimentales indican que TryOnDiffusion logra un rendimiento de vanguardia tanto cualitativa como cuantitativamente.
English
Given two images depicting a person and a garment worn by another person, our goal is to generate a visualization of how the garment might look on the input person. A key challenge is to synthesize a photorealistic detail-preserving visualization of the garment, while warping the garment to accommodate a significant body pose and shape change across the subjects. Previous methods either focus on garment detail preservation without effective pose and shape variation, or allow try-on with the desired shape and pose but lack garment details. In this paper, we propose a diffusion-based architecture that unifies two UNets (referred to as Parallel-UNet), which allows us to preserve garment details and warp the garment for significant pose and body change in a single network. The key ideas behind Parallel-UNet include: 1) garment is warped implicitly via a cross attention mechanism, 2) garment warp and person blend happen as part of a unified process as opposed to a sequence of two separate tasks. Experimental results indicate that TryOnDiffusion achieves state-of-the-art performance both qualitatively and quantitatively.
PDF746December 15, 2024