Garments2Look:衣類とアクセサリーを備えた高精細なアウトフィットレベル仮想試着のためのマルチリファレンスデータセット
Garments2Look: A Multi-Reference Dataset for High-Fidelity Outfit-Level Virtual Try-On with Clothing and Accessories
March 14, 2026
著者: Junyao Hu, Zhongwei Cheng, Waikeung Wong, Xingxing Zou
cs.AI
要旨
仮想試着(VTON)技術は単一アイテムの可視化において進歩を遂げているが、現実のファッションは、複数の衣服やアクセサリーからなるフルコーディネート、細粒度カテゴリ、重ね着、多様なスタイリングが中心であり、現在のVTONシステムの範囲を超えている。既存のデータセットはカテゴリが限定的で、コーディネートの多様性に欠ける。本研究では、アウトフィットレベルのVTONに向けた初の大規模マルチモーダルデータセット「Garments2Look」を提案する。本データセットは40の主要カテゴリ、300以上の細粒度サブカテゴリにわたる8万組の「複数アイテム対一コーディネート」ペアで構成される。各ペアには、3~12点(平均4.48点)の参照衣服画像からなるコーディネート、それを着用したモデル画像、詳細なアイテム情報および仮想試着に関するテキスト注釈が含まれる。実写性と多様性のバランスを取るため、試着結果生成前にヒューリスティックにコーディネートリストを構築する合成パイプラインを提案する。全工程は厳格な自動フィルタリングと人的検証を経て、データ品質を保証している。課題の難易度を探るため、SOTAのVTON手法と汎用画像編集モデルを適用してベースラインを確立した。結果、既存手法ではコーディネート全体のシームレスな試着、正しい重ね順やスタイリングの推論が困難であり、位置ずれや不自然な痕跡が生じることが明らかになった。
English
Virtual try-on (VTON) has advanced single-garment visualization, yet real-world fashion centers on full outfits with multiple garments, accessories, fine-grained categories, layering, and diverse styling, remaining beyond current VTON systems. Existing datasets are category-limited and lack outfit diversity. We introduce Garments2Look, the first large-scale multimodal dataset for outfit-level VTON, comprising 80K many-garments-to-one-look pairs across 40 major categories and 300+ fine-grained subcategories. Each pair includes an outfit with 3-12 reference garment images (Average 4.48), a model image wearing the outfit, and detailed item and try-on textual annotations. To balance authenticity and diversity, we propose a synthesis pipeline. It involves heuristically constructing outfit lists before generating try-on results, with the entire process subjected to strict automated filtering and human validation to ensure data quality. To probe task difficulty, we adapt SOTA VTON methods and general-purpose image editing models to establish baselines. Results show current methods struggle to try on complete outfits seamlessly and to infer correct layering and styling, leading to misalignment and artifacts.