Garments2Look: Un Conjunto de Datos Multi-Referencia para Pruebas Virtuales de Alta Fidelidad a Nivel de Conjunto con Prendas y Accesorios

Resumen

La prueba virtual de ropa (VTON) ha avanzado en la visualización de prendas individuales, pero el mundo real de la moda se centra en conjuntos completos con múltiples prendas, accesorios, categorías granulares, superposiciones y diversos estilos, lo que sigue estando fuera del alcance de los sistemas VTON actuales. Los conjuntos de datos existentes son limitados en categorías y carecen de diversidad de atuendos. Presentamos Garments2Look, el primer conjunto de datos multimodal a gran escala para VTON a nivel de conjunto, que comprende 80.000 pares de múltiples-prendas-para-un-look en 40 categorías principales y más de 300 subcategorías granulares. Cada par incluye un conjunto con 3-12 imágenes de referencia de las prendas (promedio 4.48), una imagen del modelo luciendo el conjunto y anotaciones textuales detalladas de las prendas y de la prueba virtual. Para equilibrar autenticidad y diversidad, proponemos un pipeline de síntesis. Este implica construir heurísticamente listas de conjuntos antes de generar los resultados de la prueba virtual, sometiendo todo el proceso a un filtrado automático estricto y a validación humana para garantizar la calidad de los datos. Para explorar la dificultad de la tarea, adaptamos métodos VTON de vanguardia y modelos de edición de imágenes de propósito general para establecer líneas base. Los resultados muestran que los métodos actuales tienen dificultades para probarse conjuntos completos de forma fluida y para inferir la superposición y el estilo correctos, lo que genera desalineaciones y artefactos.

English

Virtual try-on (VTON) has advanced single-garment visualization, yet real-world fashion centers on full outfits with multiple garments, accessories, fine-grained categories, layering, and diverse styling, remaining beyond current VTON systems. Existing datasets are category-limited and lack outfit diversity. We introduce Garments2Look, the first large-scale multimodal dataset for outfit-level VTON, comprising 80K many-garments-to-one-look pairs across 40 major categories and 300+ fine-grained subcategories. Each pair includes an outfit with 3-12 reference garment images (Average 4.48), a model image wearing the outfit, and detailed item and try-on textual annotations. To balance authenticity and diversity, we propose a synthesis pipeline. It involves heuristically constructing outfit lists before generating try-on results, with the entire process subjected to strict automated filtering and human validation to ensure data quality. To probe task difficulty, we adapt SOTA VTON methods and general-purpose image editing models to establish baselines. Results show current methods struggle to try on complete outfits seamlessly and to infer correct layering and styling, leading to misalignment and artifacts.

Garments2Look: Un Conjunto de Datos Multi-Referencia para Pruebas Virtuales de Alta Fidelidad a Nivel de Conjunto con Prendas y Accesorios

Garments2Look: A Multi-Reference Dataset for High-Fidelity Outfit-Level Virtual Try-On with Clothing and Accessories

Resumen

Support