逆バーチャル試着:着衣人物からの多カテゴリ製品スタイル画像生成
Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals
May 27, 2025
著者: Davide Lobba, Fulvio Sanguigni, Bin Ren, Marcella Cornia, Rita Cucchiara, Nicu Sebe
cs.AI
要旨
仮想試着(VTON)システムがターゲット人物画像に衣類をレンダリングすることを目指す一方で、本論文はその逆の問題、すなわち、着用された個人の実世界の写真から衣類の標準化された製品画像を生成するという新たなタスクである仮想脱着(VTOFF)に取り組む。VTONが多様なポーズやスタイルのバリエーションを解決しなければならないのに対し、VTOFFは一貫性があり明確に定義された出力形式(通常、衣類の平置きスタイルの表現)を利用できるため、データ生成やデータセットの強化において有望なツールとなっている。しかし、既存のVTOFFアプローチには2つの大きな課題がある:(i) 遮蔽や複雑なポーズから衣類の特徴を分離する難しさにより、視覚的なアーティファクトが生じることが多い、(ii) 単一カテゴリの衣類(例:上半身の衣服のみ)に適用が限定され、汎化が制限される。これらの課題に対処するため、我々はテキスト強化型多カテゴリ仮想脱着(TEMU-VTOFF)を提案する。これは、頑健な衣類特徴抽出のための改良されたマルチモーダル注意機構を備えたデュアルDiTベースのバックボーンを特徴とする新たなアーキテクチャである。我々のアーキテクチャは、画像、テキスト、マスクなどの複数のモダリティから衣類情報を受け取り、多カテゴリ設定で動作するように設計されている。さらに、生成された視覚的詳細をさらに洗練するための追加のアライメントモジュールを提案する。VITON-HDおよびDress Codeデータセットでの実験により、TEMU-VTOFFがVTOFFタスクにおいて新たな最先端を確立し、視覚品質とターゲット衣類への忠実度を大幅に向上させることが示された。
English
While virtual try-on (VTON) systems aim to render a garment onto a target
person image, this paper tackles the novel task of virtual try-off (VTOFF),
which addresses the inverse problem: generating standardized product images of
garments from real-world photos of clothed individuals. Unlike VTON, which must
resolve diverse pose and style variations, VTOFF benefits from a consistent and
well-defined output format -- typically a flat, lay-down-style representation
of the garment -- making it a promising tool for data generation and dataset
enhancement. However, existing VTOFF approaches face two major limitations: (i)
difficulty in disentangling garment features from occlusions and complex poses,
often leading to visual artifacts, and (ii) restricted applicability to
single-category garments (e.g., upper-body clothes only), limiting
generalization. To address these challenges, we present Text-Enhanced
MUlti-category Virtual Try-Off (TEMU-VTOFF), a novel architecture featuring a
dual DiT-based backbone with a modified multimodal attention mechanism for
robust garment feature extraction. Our architecture is designed to receive
garment information from multiple modalities like images, text, and masks to
work in a multi-category setting. Finally, we propose an additional alignment
module to further refine the generated visual details. Experiments on VITON-HD
and Dress Code datasets show that TEMU-VTOFF sets a new state-of-the-art on the
VTOFF task, significantly improving both visual quality and fidelity to the
target garments.Summary
AI-Generated Summary