Garments2Look: Um Conjunto de Dados Multi-Referência para Experimentação Virtual de Nível Conjunto com Roupas e Acessórios de Alta Fidelidade

Resumo

A experimentação virtual de vestuário (VTON) avançou na visualização de peças individuais, mas o mundo real da moda centra-se em conjuntos completos com múltiplas peças, acessórios, categorias refinadas, sobreposições e estilizações diversas, permanecendo além dos sistemas atuais de VTON. Os conjuntos de dados existentes são limitados em categorias e carecem de diversidade de outfits. Apresentamos o Garments2Look, o primeiro conjunto de dados multimodal em larga escala para VTON a nível de conjunto, compreendendo 80 mil pares de múltiplas-peças-para-um-look abrangendo 40 categorias principais e mais de 300 subcategorias refinadas. Cada par inclui um outfit com 3 a 12 imagens de referência das peças (média de 4.48), uma imagem do modelo vestindo o conjunto e anotações textuais detalhadas dos itens e da experimentação. Para equilibrar autenticidade e diversidade, propomos um pipeline de síntese. Este envolve a construção heurística de listas de outfits antes de gerar os resultados de experimentação, com todo o processo sujeito a filtragem automática rigorosa e validação humana para garantir a qualidade dos dados. Para investigar a dificuldade da tarefa, adaptamos métodos SOTA de VTON e modelos de edição de imagem de propósito geral para estabelecer linhas de base. Os resultados mostram que os métodos atuais lutam para experimentar conjuntos completos de forma harmoniosa e para inferir a sobreposição e estilização corretas, resultando em desalinhamentos e artefactos.

English

Virtual try-on (VTON) has advanced single-garment visualization, yet real-world fashion centers on full outfits with multiple garments, accessories, fine-grained categories, layering, and diverse styling, remaining beyond current VTON systems. Existing datasets are category-limited and lack outfit diversity. We introduce Garments2Look, the first large-scale multimodal dataset for outfit-level VTON, comprising 80K many-garments-to-one-look pairs across 40 major categories and 300+ fine-grained subcategories. Each pair includes an outfit with 3-12 reference garment images (Average 4.48), a model image wearing the outfit, and detailed item and try-on textual annotations. To balance authenticity and diversity, we propose a synthesis pipeline. It involves heuristically constructing outfit lists before generating try-on results, with the entire process subjected to strict automated filtering and human validation to ensure data quality. To probe task difficulty, we adapt SOTA VTON methods and general-purpose image editing models to establish baselines. Results show current methods struggle to try on complete outfits seamlessly and to infer correct layering and styling, leading to misalignment and artifacts.

Garments2Look: Um Conjunto de Dados Multi-Referência para Experimentação Virtual de Nível Conjunto com Roupas e Acessórios de Alta Fidelidade

Garments2Look: A Multi-Reference Dataset for High-Fidelity Outfit-Level Virtual Try-On with Clothing and Accessories

Resumo

Support