ChatPaper.aiChatPaper

Garments2Look : Un jeu de données multi-références pour l'essayage virtuel haute fidélité au niveau de la tenue, incluant vêtements et accessoires

Garments2Look: A Multi-Reference Dataset for High-Fidelity Outfit-Level Virtual Try-On with Clothing and Accessories

March 14, 2026
Auteurs: Junyao Hu, Zhongwei Cheng, Waikeung Wong, Xingxing Zou
cs.AI

Résumé

L'essayage virtuel (VTON) a progressé dans la visualisation de vêtements individuels, mais la mode réelle se concentre sur des tenues complètes incluant multiples vêtements, accessoires, catégories granulaires, superposition et styles variés, ce qui reste hors de portée des systèmes VTON actuels. Les jeux de données existants sont limités en catégories et manquent de diversité vestimentaire. Nous présentons Garments2Look, le premier jeu de données multimodal à grande échelle pour le VTON au niveau de la tenue, comprenant 80 000 paires multiples-vêtements-vers-une-tenue couvrant 40 catégories principales et plus de 300 sous-catégories granulaires. Chaque paire inclut une tenue avec 3 à 12 images de référence de vêtements (moyenne de 4,48), une image de mannequin portant la tenue, et des annotations textuelles détaillées sur les articles et l'essayage. Pour équilibrer authenticité et diversité, nous proposons un pipeline de synthèse. Celui-ci implique la construction heuristique de listes de tenues avant la génération des résultats d'essayage, l'ensemble du processus étant soumis à un filtrage automatique strict et une validation humaine pour garantir la qualité des données. Pour évaluer la difficulté de la tâche, nous adaptons des méthodes VTON state-of-the-art et des modèles généraux d'édition d'image pour établir des références. Les résultats montrent que les méthodes actuelles peinent à habiller virtuellement des tenues complètes de manière fluide et à inférer correctement la superposition et le style, entraînant des désalignements et artéfacts.
English
Virtual try-on (VTON) has advanced single-garment visualization, yet real-world fashion centers on full outfits with multiple garments, accessories, fine-grained categories, layering, and diverse styling, remaining beyond current VTON systems. Existing datasets are category-limited and lack outfit diversity. We introduce Garments2Look, the first large-scale multimodal dataset for outfit-level VTON, comprising 80K many-garments-to-one-look pairs across 40 major categories and 300+ fine-grained subcategories. Each pair includes an outfit with 3-12 reference garment images (Average 4.48), a model image wearing the outfit, and detailed item and try-on textual annotations. To balance authenticity and diversity, we propose a synthesis pipeline. It involves heuristically constructing outfit lists before generating try-on results, with the entire process subjected to strict automated filtering and human validation to ensure data quality. To probe task difficulty, we adapt SOTA VTON methods and general-purpose image editing models to establish baselines. Results show current methods struggle to try on complete outfits seamlessly and to infer correct layering and styling, leading to misalignment and artifacts.
PDF23March 18, 2026