ChatPaper.aiChatPaper

TryOnDiffusion: 두 개의 UNet 이야기

TryOnDiffusion: A Tale of Two UNets

June 14, 2023
저자: Luyang Zhu, Dawei Yang, Tyler Zhu, Fitsum Reda, William Chan, Chitwan Saharia, Mohammad Norouzi, Ira Kemelmacher-Shlizerman
cs.AI

초록

한 사람과 다른 사람이 입은 의상을 각각 묘사한 두 장의 이미지가 주어졌을 때, 우리의 목표는 입력된 사람에게 그 의상이 어떻게 보일지에 대한 시각화를 생성하는 것입니다. 주요 과제는 의상의 세부 사항을 사실적으로 보존하면서, 대상 간의 상당한 신체 자세와 형태 변화를 수용하기 위해 의상을 변형시키는 것입니다. 기존의 방법들은 효과적인 자세와 형태 변화 없이 의상 세부 사항 보존에 초점을 맞추거나, 원하는 형태와 자세로 입어보기를 허용하지만 의상 세부 사항이 부족했습니다. 본 논문에서는 두 개의 UNet(Parallel-UNet이라 칭함)을 통합한 확산 기반 아키텍처를 제안하여, 단일 네트워크 내에서 의상 세부 사항을 보존하고 상당한 자세 및 신체 변화를 위한 의상 변형을 가능하게 합니다. Parallel-UNet의 핵심 아이디어는 다음과 같습니다: 1) 교차 주의 메커니즘을 통해 의상이 암묵적으로 변형되고, 2) 의상 변형과 사람 혼합이 두 개의 별도 작업 시퀀스가 아닌 통합된 프로세스의 일부로 이루어집니다. 실험 결과는 TryOnDiffusion이 질적 및 양적으로 최첨단 성능을 달성함을 보여줍니다.
English
Given two images depicting a person and a garment worn by another person, our goal is to generate a visualization of how the garment might look on the input person. A key challenge is to synthesize a photorealistic detail-preserving visualization of the garment, while warping the garment to accommodate a significant body pose and shape change across the subjects. Previous methods either focus on garment detail preservation without effective pose and shape variation, or allow try-on with the desired shape and pose but lack garment details. In this paper, we propose a diffusion-based architecture that unifies two UNets (referred to as Parallel-UNet), which allows us to preserve garment details and warp the garment for significant pose and body change in a single network. The key ideas behind Parallel-UNet include: 1) garment is warped implicitly via a cross attention mechanism, 2) garment warp and person blend happen as part of a unified process as opposed to a sequence of two separate tasks. Experimental results indicate that TryOnDiffusion achieves state-of-the-art performance both qualitatively and quantitatively.
PDF746December 15, 2024