ChatPaper.aiChatPaper

Inverse Virtual Try-On: Erzeugung von Produktstil-Bildern aus mehreren Kategorien aus bekleideten Personen

Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

May 27, 2025
Autoren: Davide Lobba, Fulvio Sanguigni, Bin Ren, Marcella Cornia, Rita Cucchiara, Nicu Sebe
cs.AI

Zusammenfassung

Während virtuelle Anprobe-Systeme (VTON) darauf abzielen, ein Kleidungsstück in ein Zielpersonenbild zu rendern, widmet sich diese Arbeit der neuartigen Aufgabe der virtuellen Entnahme (VTOFF), die das umgekehrte Problem behandelt: die Erzeugung standardisierter Produktbilder von Kleidungsstücken aus realen Fotos bekleideter Personen. Im Gegensatz zu VTON, das diverse Pose- und Stilvariationen bewältigen muss, profitiert VTOFF von einem konsistenten und klar definierten Ausgabeformat – typischerweise einer flachen, liegenden Darstellung des Kleidungsstücks –, was es zu einem vielversprechenden Werkzeug für die Datengenerierung und Datensatzverbesserung macht. Bestehende VTOFF-Ansätze stehen jedoch vor zwei großen Herausforderungen: (i) Schwierigkeiten bei der Trennung von Kleidungsmerkmalen von Verdeckungen und komplexen Posen, was oft zu visuellen Artefakten führt, und (ii) eine eingeschränkte Anwendbarkeit auf Einzelkategorie-Kleidungsstücke (z.B. nur Oberbekleidung), was die Generalisierung einschränkt. Um diese Herausforderungen zu bewältigen, präsentieren wir Text-Enhanced MUlti-category Virtual Try-Off (TEMU-VTOFF), eine neuartige Architektur mit einem dualen DiT-basierten Backbone und einem modifizierten multimodalen Aufmerksamkeitsmechanismus zur robusten Extraktion von Kleidungsmerkmalen. Unsere Architektur ist darauf ausgelegt, Kleidungsinformationen aus mehreren Modalitäten wie Bildern, Text und Masken in einem Mehrkategorie-Setting zu verarbeiten. Schließlich schlagen wir ein zusätzliches Ausrichtungsmodul vor, um die generierten visuellen Details weiter zu verfeinern. Experimente auf den VITON-HD- und Dress-Code-Datensätzen zeigen, dass TEMU-VTOFF einen neuen State-of-the-Art auf der VTOFF-Aufgabe setzt und sowohl die visuelle Qualität als auch die Treue zu den Zielkleidungsstücken signifikant verbessert.
English
While virtual try-on (VTON) systems aim to render a garment onto a target person image, this paper tackles the novel task of virtual try-off (VTOFF), which addresses the inverse problem: generating standardized product images of garments from real-world photos of clothed individuals. Unlike VTON, which must resolve diverse pose and style variations, VTOFF benefits from a consistent and well-defined output format -- typically a flat, lay-down-style representation of the garment -- making it a promising tool for data generation and dataset enhancement. However, existing VTOFF approaches face two major limitations: (i) difficulty in disentangling garment features from occlusions and complex poses, often leading to visual artifacts, and (ii) restricted applicability to single-category garments (e.g., upper-body clothes only), limiting generalization. To address these challenges, we present Text-Enhanced MUlti-category Virtual Try-Off (TEMU-VTOFF), a novel architecture featuring a dual DiT-based backbone with a modified multimodal attention mechanism for robust garment feature extraction. Our architecture is designed to receive garment information from multiple modalities like images, text, and masks to work in a multi-category setting. Finally, we propose an additional alignment module to further refine the generated visual details. Experiments on VITON-HD and Dress Code datasets show that TEMU-VTOFF sets a new state-of-the-art on the VTOFF task, significantly improving both visual quality and fidelity to the target garments.

Summary

AI-Generated Summary

PDF31May 28, 2025