Garments2Look: Многопользовательский набор данных для высокоточной виртуальной примерки комплектов одежды с элементами гардероба и аксессуарами

Аннотация

Виртуальная примерка (VTON) достигла прогресса в визуализации отдельных предметов одежды, однако реальная мода сосредоточена на полных образах, включающих множество предметов одежды, аксессуары, детализированные категории, многослойность и разнообразные стили, что остаётся за пределами возможностей современных систем VTON. Существующие наборы данных ограничены по категориям и не обладают разнообразием образов. Мы представляем Garments2Look — первый крупномасштабный мультимодальный набор данных для VTON на уровне полного образа, содержащий 80 тысяч пар «множество-предметов-одежды-к-одному-образу» по 40 основным категориям и более чем 300 детализированным подкатегориям. Каждая пара включает образ с 3–12 эталонными изображениями предметов одежды (в среднем 4.48), изображение модели в данном образе, а также детальные текстовые аннотации предметов и примерки. Для баланса аутентичности и разнообразия мы предлагаем конвейер синтеза, который включает эвристическое построение списков предметов образа перед генерацией результатов примерки, причём весь процесс проходит строгую автоматическую фильтрацию и человеческую валидацию для обеспечения качества данных. Для оценки сложности задачи мы адаптировали передовые методы VTON и универсальные модели редактирования изображений для установления базовых уровней. Результаты показывают, что современные методы не способны бесшовно примерять полные образы и корректно выводить многослойность и стилизацию, что приводит к несоответствиям и артефактам.

English

Virtual try-on (VTON) has advanced single-garment visualization, yet real-world fashion centers on full outfits with multiple garments, accessories, fine-grained categories, layering, and diverse styling, remaining beyond current VTON systems. Existing datasets are category-limited and lack outfit diversity. We introduce Garments2Look, the first large-scale multimodal dataset for outfit-level VTON, comprising 80K many-garments-to-one-look pairs across 40 major categories and 300+ fine-grained subcategories. Each pair includes an outfit with 3-12 reference garment images (Average 4.48), a model image wearing the outfit, and detailed item and try-on textual annotations. To balance authenticity and diversity, we propose a synthesis pipeline. It involves heuristically constructing outfit lists before generating try-on results, with the entire process subjected to strict automated filtering and human validation to ensure data quality. To probe task difficulty, we adapt SOTA VTON methods and general-purpose image editing models to establish baselines. Results show current methods struggle to try on complete outfits seamlessly and to infer correct layering and styling, leading to misalignment and artifacts.

Garments2Look: Многопользовательский набор данных для высокоточной виртуальной примерки комплектов одежды с элементами гардероба и аксессуарами

Garments2Look: A Multi-Reference Dataset for High-Fidelity Outfit-Level Virtual Try-On with Clothing and Accessories

Аннотация

Support