Garments2Look: Um Conjunto de Dados Multi-Referência para Experimentação Virtual de Nível Conjunto com Roupas e Acessórios de Alta Fidelidade
Garments2Look: A Multi-Reference Dataset for High-Fidelity Outfit-Level Virtual Try-On with Clothing and Accessories
March 14, 2026
Autores: Junyao Hu, Zhongwei Cheng, Waikeung Wong, Xingxing Zou
cs.AI
Resumo
A experimentação virtual de vestuário (VTON) avançou na visualização de peças individuais, mas o mundo real da moda centra-se em conjuntos completos com múltiplas peças, acessórios, categorias refinadas, sobreposições e estilizações diversas, permanecendo além dos sistemas atuais de VTON. Os conjuntos de dados existentes são limitados em categorias e carecem de diversidade de outfits. Apresentamos o Garments2Look, o primeiro conjunto de dados multimodal em larga escala para VTON a nível de conjunto, compreendendo 80 mil pares de múltiplas-peças-para-um-look abrangendo 40 categorias principais e mais de 300 subcategorias refinadas. Cada par inclui um outfit com 3 a 12 imagens de referência das peças (média de 4.48), uma imagem do modelo vestindo o conjunto e anotações textuais detalhadas dos itens e da experimentação. Para equilibrar autenticidade e diversidade, propomos um pipeline de síntese. Este envolve a construção heurística de listas de outfits antes de gerar os resultados de experimentação, com todo o processo sujeito a filtragem automática rigorosa e validação humana para garantir a qualidade dos dados. Para investigar a dificuldade da tarefa, adaptamos métodos SOTA de VTON e modelos de edição de imagem de propósito geral para estabelecer linhas de base. Os resultados mostram que os métodos atuais lutam para experimentar conjuntos completos de forma harmoniosa e para inferir a sobreposição e estilização corretas, resultando em desalinhamentos e artefactos.
English
Virtual try-on (VTON) has advanced single-garment visualization, yet real-world fashion centers on full outfits with multiple garments, accessories, fine-grained categories, layering, and diverse styling, remaining beyond current VTON systems. Existing datasets are category-limited and lack outfit diversity. We introduce Garments2Look, the first large-scale multimodal dataset for outfit-level VTON, comprising 80K many-garments-to-one-look pairs across 40 major categories and 300+ fine-grained subcategories. Each pair includes an outfit with 3-12 reference garment images (Average 4.48), a model image wearing the outfit, and detailed item and try-on textual annotations. To balance authenticity and diversity, we propose a synthesis pipeline. It involves heuristically constructing outfit lists before generating try-on results, with the entire process subjected to strict automated filtering and human validation to ensure data quality. To probe task difficulty, we adapt SOTA VTON methods and general-purpose image editing models to establish baselines. Results show current methods struggle to try on complete outfits seamlessly and to infer correct layering and styling, leading to misalignment and artifacts.