Garments2Look: Een Multi-Referentie Dataset voor Hoogwaardige Virtuele Passen op Outfitniveau met Kleding en Accessoires
Garments2Look: A Multi-Reference Dataset for High-Fidelity Outfit-Level Virtual Try-On with Clothing and Accessories
March 14, 2026
Auteurs: Junyao Hu, Zhongwei Cheng, Waikeung Wong, Xingxing Zou
cs.AI
Samenvatting
Virtual try-on (VTON) heeft vooruitgang geboekt in de visualisatie van individuele kledingstukken, maar in de echte wereld draait mode om complete outfits met meerdere kledingstukken, accessoires, fijnmazige categorieën, gelaagdheid en diverse stijlen, wat de capaciteiten van huidige VTON-systemen overstijgt. Bestaande datasets zijn beperkt in categorieën en missen outfitdiversiteit. Wij introduceren Garments2Look, de eerste grootschalige multimodale dataset voor outfitniveau VTON, bestaande uit 80K veel-kledingstukken-naar-één-look paren verdeeld over 40 hoofdcategorieën en 300+ fijnmazige subcategorieën. Elk paar omvat een outfit met 3-12 referentie-afbeeldingen van kledingstukken (gemiddeld 4.48), een modelafbeelding die de outfit draagt, en gedetailleerde tekstuele annotaties voor items en try-on. Om authenticiteit en diversiteit in evenwicht te brengen, stellen we een synthesepijplijn voor. Deze omvat het heuristisch samenstellen van outfitlijsten alvorens try-on resultaten te genereren, waarbij het hele proces onderworpen wordt aan strikte automatische filtering en menselijke validatie om de datakwaliteit te waarborgen. Om de taakmoeilijkheid te onderzoeken, passen we state-of-the-art VTON-methoden en algemene beeldbewerkingsmodellen aan om basislijnen vast te stellen. Resultaten tonen aan dat huidige methoden moeite hebben om complete outfits naadloos te passen en de correcte gelaagdheid en stijl te infereren, wat leidt tot uitlijningfouten en artefacten.
English
Virtual try-on (VTON) has advanced single-garment visualization, yet real-world fashion centers on full outfits with multiple garments, accessories, fine-grained categories, layering, and diverse styling, remaining beyond current VTON systems. Existing datasets are category-limited and lack outfit diversity. We introduce Garments2Look, the first large-scale multimodal dataset for outfit-level VTON, comprising 80K many-garments-to-one-look pairs across 40 major categories and 300+ fine-grained subcategories. Each pair includes an outfit with 3-12 reference garment images (Average 4.48), a model image wearing the outfit, and detailed item and try-on textual annotations. To balance authenticity and diversity, we propose a synthesis pipeline. It involves heuristically constructing outfit lists before generating try-on results, with the entire process subjected to strict automated filtering and human validation to ensure data quality. To probe task difficulty, we adapt SOTA VTON methods and general-purpose image editing models to establish baselines. Results show current methods struggle to try on complete outfits seamlessly and to infer correct layering and styling, leading to misalignment and artifacts.