Garments2Look: Многопользовательский набор данных для высокоточной виртуальной примерки комплектов одежды с элементами гардероба и аксессуарами
Garments2Look: A Multi-Reference Dataset for High-Fidelity Outfit-Level Virtual Try-On with Clothing and Accessories
March 14, 2026
Авторы: Junyao Hu, Zhongwei Cheng, Waikeung Wong, Xingxing Zou
cs.AI
Аннотация
Виртуальная примерка (VTON) достигла прогресса в визуализации отдельных предметов одежды, однако реальная мода сосредоточена на полных образах, включающих множество предметов одежды, аксессуары, детализированные категории, многослойность и разнообразные стили, что остаётся за пределами возможностей современных систем VTON. Существующие наборы данных ограничены по категориям и не обладают разнообразием образов. Мы представляем Garments2Look — первый крупномасштабный мультимодальный набор данных для VTON на уровне полного образа, содержащий 80 тысяч пар «множество-предметов-одежды-к-одному-образу» по 40 основным категориям и более чем 300 детализированным подкатегориям. Каждая пара включает образ с 3–12 эталонными изображениями предметов одежды (в среднем 4.48), изображение модели в данном образе, а также детальные текстовые аннотации предметов и примерки. Для баланса аутентичности и разнообразия мы предлагаем конвейер синтеза, который включает эвристическое построение списков предметов образа перед генерацией результатов примерки, причём весь процесс проходит строгую автоматическую фильтрацию и человеческую валидацию для обеспечения качества данных. Для оценки сложности задачи мы адаптировали передовые методы VTON и универсальные модели редактирования изображений для установления базовых уровней. Результаты показывают, что современные методы не способны бесшовно примерять полные образы и корректно выводить многослойность и стилизацию, что приводит к несоответствиям и артефактам.
English
Virtual try-on (VTON) has advanced single-garment visualization, yet real-world fashion centers on full outfits with multiple garments, accessories, fine-grained categories, layering, and diverse styling, remaining beyond current VTON systems. Existing datasets are category-limited and lack outfit diversity. We introduce Garments2Look, the first large-scale multimodal dataset for outfit-level VTON, comprising 80K many-garments-to-one-look pairs across 40 major categories and 300+ fine-grained subcategories. Each pair includes an outfit with 3-12 reference garment images (Average 4.48), a model image wearing the outfit, and detailed item and try-on textual annotations. To balance authenticity and diversity, we propose a synthesis pipeline. It involves heuristically constructing outfit lists before generating try-on results, with the entire process subjected to strict automated filtering and human validation to ensure data quality. To probe task difficulty, we adapt SOTA VTON methods and general-purpose image editing models to establish baselines. Results show current methods struggle to try on complete outfits seamlessly and to infer correct layering and styling, leading to misalignment and artifacts.