역 가상 피팅: 의복 착용자로부터 다중 카테고리 제품 스타일 이미지 생성
Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals
May 27, 2025
저자: Davide Lobba, Fulvio Sanguigni, Bin Ren, Marcella Cornia, Rita Cucchiara, Nicu Sebe
cs.AI
초록
가상 피팅(VTON) 시스템이 대상 인물 이미지에 의류를 렌더링하는 것을 목표로 하는 반면, 본 논문은 그 반대 문제를 다루는 새로운 과제인 가상 탈의(VTOFF)를 제안한다. VTOFF는 옷을 입은 개인의 실제 사진에서 의류의 표준화된 제품 이미지를 생성하는 문제를 해결한다. 다양한 자세와 스타일 변형을 해결해야 하는 VTON과 달리, VTOFF는 일관적이고 잘 정의된 출력 형식(일반적으로 의류의 평평한 누워 있는 스타일 표현)을 활용하여 데이터 생성 및 데이터셋 강화에 유망한 도구로 자리 잡고 있다. 그러나 기존 VTOFF 접근법은 두 가지 주요 한계에 직면해 있다: (i) 가려짐과 복잡한 자세로부터 의류 특징을 분리하는 데 어려움이 있어 시각적 아티팩트가 발생하기 쉽고, (ii) 단일 카테고리 의류(예: 상의만)에만 적용 가능하여 일반화가 제한된다는 점이다. 이러한 문제를 해결하기 위해, 본 논문은 강력한 의류 특징 추출을 위해 수정된 다중 모드 어텐션 메커니즘을 갖춘 이중 DiT 기반 백본을 특징으로 하는 텍스트 강화 다중 카테고리 가상 탈의(TEMU-VTOFF)라는 새로운 아키텍처를 제안한다. 우리의 아키텍처는 이미지, 텍스트, 마스크와 같은 다중 모드로부터 의류 정보를 받아 다중 카테고리 설정에서 작동하도록 설계되었다. 마지막으로, 생성된 시각적 세부 사항을 더욱 정제하기 위한 추가 정렬 모듈을 제안한다. VITON-HD 및 Dress Code 데이터셋에서의 실험 결과, TEMU-VTOFF는 VTOFF 과제에서 새로운 최첨단 기술을 설정하며, 시각적 품질과 대상 의류에 대한 충실도를 크게 향상시킴을 보여준다.
English
While virtual try-on (VTON) systems aim to render a garment onto a target
person image, this paper tackles the novel task of virtual try-off (VTOFF),
which addresses the inverse problem: generating standardized product images of
garments from real-world photos of clothed individuals. Unlike VTON, which must
resolve diverse pose and style variations, VTOFF benefits from a consistent and
well-defined output format -- typically a flat, lay-down-style representation
of the garment -- making it a promising tool for data generation and dataset
enhancement. However, existing VTOFF approaches face two major limitations: (i)
difficulty in disentangling garment features from occlusions and complex poses,
often leading to visual artifacts, and (ii) restricted applicability to
single-category garments (e.g., upper-body clothes only), limiting
generalization. To address these challenges, we present Text-Enhanced
MUlti-category Virtual Try-Off (TEMU-VTOFF), a novel architecture featuring a
dual DiT-based backbone with a modified multimodal attention mechanism for
robust garment feature extraction. Our architecture is designed to receive
garment information from multiple modalities like images, text, and masks to
work in a multi-category setting. Finally, we propose an additional alignment
module to further refine the generated visual details. Experiments on VITON-HD
and Dress Code datasets show that TEMU-VTOFF sets a new state-of-the-art on the
VTOFF task, significantly improving both visual quality and fidelity to the
target garments.Summary
AI-Generated Summary