TryOnDiffusion: История двух UNet
TryOnDiffusion: A Tale of Two UNets
June 14, 2023
Авторы: Luyang Zhu, Dawei Yang, Tyler Zhu, Fitsum Reda, William Chan, Chitwan Saharia, Mohammad Norouzi, Ira Kemelmacher-Shlizerman
cs.AI
Аннотация
Имея два изображения, на одном из которых изображен человек, а на другом — одежда, надетую на другого человека, наша цель — сгенерировать визуализацию того, как эта одежда может выглядеть на первом человеке. Основная задача заключается в синтезе фотореалистичной визуализации, сохраняющей детали одежды, при этом адаптируя её к значительным изменениям позы и формы тела между субъектами. Предыдущие методы либо сосредоточены на сохранении деталей одежды без эффективного учета изменений позы и формы, либо позволяют примерку с желаемой формой и позой, но теряют детали одежды. В данной статье мы предлагаем архитектуру на основе диффузии, объединяющую две UNet (называемую Parallel-UNet), что позволяет сохранять детали одежды и адаптировать её к значительным изменениям позы и тела в рамках одной сети. Основные идеи Parallel-UNet включают: 1) одежда адаптируется неявно с помощью механизма кросс-внимания, 2) адаптация одежды и объединение с человеком происходят как часть единого процесса, а не как последовательность двух отдельных задач. Экспериментальные результаты показывают, что TryOnDiffusion достигает наилучших показателей как качественно, так и количественно.
English
Given two images depicting a person and a garment worn by another person, our
goal is to generate a visualization of how the garment might look on the input
person. A key challenge is to synthesize a photorealistic detail-preserving
visualization of the garment, while warping the garment to accommodate a
significant body pose and shape change across the subjects. Previous methods
either focus on garment detail preservation without effective pose and shape
variation, or allow try-on with the desired shape and pose but lack garment
details. In this paper, we propose a diffusion-based architecture that unifies
two UNets (referred to as Parallel-UNet), which allows us to preserve garment
details and warp the garment for significant pose and body change in a single
network. The key ideas behind Parallel-UNet include: 1) garment is warped
implicitly via a cross attention mechanism, 2) garment warp and person blend
happen as part of a unified process as opposed to a sequence of two separate
tasks. Experimental results indicate that TryOnDiffusion achieves
state-of-the-art performance both qualitatively and quantitatively.