Garments2Look: un dataset multi-riferimento per il virtual try-on ad alta fedeltà a livello di outfit con abbigliamento e accessori
Garments2Look: A Multi-Reference Dataset for High-Fidelity Outfit-Level Virtual Try-On with Clothing and Accessories
March 14, 2026
Autori: Junyao Hu, Zhongwei Cheng, Waikeung Wong, Xingxing Zou
cs.AI
Abstract
Il virtual try-on (VTON) ha compiuto progressi nella visualizzazione di capi singoli, ma nel mondo reale la moda si concentra su outfit completi con molteplici capi, accessori, categorie granulari, stratificazioni e stili diversificati, aspetti che rimangono al di là delle capacità degli attuali sistemi VTON. I dataset esistenti sono limitati nelle categorie e carenti in diversità di outfit. Introduciamo Garments2Look, il primo dataset multimodale su larga scala per il VTON a livello di outfit, comprendente 80.000 coppie "molti-capì-a-uno-stile" attraverso 40 categorie principali e oltre 300 sottocategorie granulari. Ogni coppia include un outfit con 3-12 immagini di riferimento dei capi (media 4.48), un'immagine del modello che indossa l'outfit e annotazioni testuali dettagliate degli item e del try-on. Per bilanciare autenticità e diversità, proponiamo una pipeline di sintesi. Questa prevede la costruzione euristica di liste di outfit prima di generare i risultati del try-on, con l'intero processo sottoposto a rigorosa filtrazione automatica e validazione umana per garantire la qualità dei dati. Per investigare la difficoltà del compito, adattiamo metodi VTON allo stato dell'arte e modelli di editing immagine generici per stabilire baseline. I risultati mostrano che i metodi attuali faticano a provare outfit completi in modo seamless e a inferire correttamente stratificazione e stile, portando a disallineamenti e artefatti.
English
Virtual try-on (VTON) has advanced single-garment visualization, yet real-world fashion centers on full outfits with multiple garments, accessories, fine-grained categories, layering, and diverse styling, remaining beyond current VTON systems. Existing datasets are category-limited and lack outfit diversity. We introduce Garments2Look, the first large-scale multimodal dataset for outfit-level VTON, comprising 80K many-garments-to-one-look pairs across 40 major categories and 300+ fine-grained subcategories. Each pair includes an outfit with 3-12 reference garment images (Average 4.48), a model image wearing the outfit, and detailed item and try-on textual annotations. To balance authenticity and diversity, we propose a synthesis pipeline. It involves heuristically constructing outfit lists before generating try-on results, with the entire process subjected to strict automated filtering and human validation to ensure data quality. To probe task difficulty, we adapt SOTA VTON methods and general-purpose image editing models to establish baselines. Results show current methods struggle to try on complete outfits seamlessly and to infer correct layering and styling, leading to misalignment and artifacts.