Garments2Look: un dataset multi-riferimento per il virtual try-on ad alta fedeltà a livello di outfit con abbigliamento e accessori

Abstract

Il virtual try-on (VTON) ha compiuto progressi nella visualizzazione di capi singoli, ma nel mondo reale la moda si concentra su outfit completi con molteplici capi, accessori, categorie granulari, stratificazioni e stili diversificati, aspetti che rimangono al di là delle capacità degli attuali sistemi VTON. I dataset esistenti sono limitati nelle categorie e carenti in diversità di outfit. Introduciamo Garments2Look, il primo dataset multimodale su larga scala per il VTON a livello di outfit, comprendente 80.000 coppie "molti-capì-a-uno-stile" attraverso 40 categorie principali e oltre 300 sottocategorie granulari. Ogni coppia include un outfit con 3-12 immagini di riferimento dei capi (media 4.48), un'immagine del modello che indossa l'outfit e annotazioni testuali dettagliate degli item e del try-on. Per bilanciare autenticità e diversità, proponiamo una pipeline di sintesi. Questa prevede la costruzione euristica di liste di outfit prima di generare i risultati del try-on, con l'intero processo sottoposto a rigorosa filtrazione automatica e validazione umana per garantire la qualità dei dati. Per investigare la difficoltà del compito, adattiamo metodi VTON allo stato dell'arte e modelli di editing immagine generici per stabilire baseline. I risultati mostrano che i metodi attuali faticano a provare outfit completi in modo seamless e a inferire correttamente stratificazione e stile, portando a disallineamenti e artefatti.

English

Virtual try-on (VTON) has advanced single-garment visualization, yet real-world fashion centers on full outfits with multiple garments, accessories, fine-grained categories, layering, and diverse styling, remaining beyond current VTON systems. Existing datasets are category-limited and lack outfit diversity. We introduce Garments2Look, the first large-scale multimodal dataset for outfit-level VTON, comprising 80K many-garments-to-one-look pairs across 40 major categories and 300+ fine-grained subcategories. Each pair includes an outfit with 3-12 reference garment images (Average 4.48), a model image wearing the outfit, and detailed item and try-on textual annotations. To balance authenticity and diversity, we propose a synthesis pipeline. It involves heuristically constructing outfit lists before generating try-on results, with the entire process subjected to strict automated filtering and human validation to ensure data quality. To probe task difficulty, we adapt SOTA VTON methods and general-purpose image editing models to establish baselines. Results show current methods struggle to try on complete outfits seamlessly and to infer correct layering and styling, leading to misalignment and artifacts.

Garments2Look: un dataset multi-riferimento per il virtual try-on ad alta fedeltà a livello di outfit con abbigliamento e accessori

Garments2Look: A Multi-Reference Dataset for High-Fidelity Outfit-Level Virtual Try-On with Clothing and Accessories

Abstract

Support