ChatPaper.aiChatPaper

Garments2Look: Ein Multi-Referenz-Datensatz für hochauflösendes virtuelles Anprobieren auf Outfit-Ebene mit Kleidung und Accessoires

Garments2Look: A Multi-Reference Dataset for High-Fidelity Outfit-Level Virtual Try-On with Clothing and Accessories

March 14, 2026
Autoren: Junyao Hu, Zhongwei Cheng, Waikeung Wong, Xingxing Zou
cs.AI

Zusammenfassung

Virtual Try-On (VTON) hat die Visualisierung einzelner Kleidungsstücke vorangetrieben, doch in der realen Modebranche stehen komplette Outfits mit mehreren Kleidungsstücken, Accessoires, fein granularen Kategorien, Schichtung und vielfältigen Stilen im Mittelpunkt – was über die Möglichkeiten aktueller VTON-Systeme hinausgeht. Bestehende Datensätze sind kategorisch eingeschränkt und weisen eine geringe Outfit-Vielfalt auf. Wir stellen Garments2Look vor, den ersten groß angelegten multimodalen Datensatz für outfitbasiertes VTON. Er umfasst 80.000 Kleidungsstücke-zu-Outfit-Paare über 40 Hauptkategorien und 300+ feingranulare Unterkategorien. Jedes Paar enthält ein Outfit mit 3–12 Referenzbildern der Kleidungsstücke (Durchschnitt 4,48), ein Bild eines Models, das das Outfit trägt, sowie detaillierte textuelle Annotationen zu den Items und zum Try-On. Um Authentizität und Vielfalt in Einklang zu bringen, schlagen wir eine Synthese-Pipeline vor. Diese beinhaltet die heuristische Konstruktion von Outfit-Listen vor der Generierung der Try-On-Ergebnisse, wobei der gesamte Prozess einer strengen automatischen Filterung und menschlichen Validierung unterzogen wird, um die Datenqualität zu gewährleisten. Um die Aufgabenschwierigkeit zu untersuchen, passen wir State-of-the-Art-VTON-Methoden und allgemeine Bildbearbeitungsmodelle an, um Baseline-Ergebnisse zu etablieren. Die Ergebnisse zeigen, dass aktuelle Methoden Schwierigkeiten haben, komplette Outfits nahtlos anzulegen sowie die korrekte Schichtung und Stilistik zu inferieren, was zu Fehlausrichtungen und Artefakten führt.
English
Virtual try-on (VTON) has advanced single-garment visualization, yet real-world fashion centers on full outfits with multiple garments, accessories, fine-grained categories, layering, and diverse styling, remaining beyond current VTON systems. Existing datasets are category-limited and lack outfit diversity. We introduce Garments2Look, the first large-scale multimodal dataset for outfit-level VTON, comprising 80K many-garments-to-one-look pairs across 40 major categories and 300+ fine-grained subcategories. Each pair includes an outfit with 3-12 reference garment images (Average 4.48), a model image wearing the outfit, and detailed item and try-on textual annotations. To balance authenticity and diversity, we propose a synthesis pipeline. It involves heuristically constructing outfit lists before generating try-on results, with the entire process subjected to strict automated filtering and human validation to ensure data quality. To probe task difficulty, we adapt SOTA VTON methods and general-purpose image editing models to establish baselines. Results show current methods struggle to try on complete outfits seamlessly and to infer correct layering and styling, leading to misalignment and artifacts.
PDF23March 18, 2026