Обратная виртуальная примерка: генерация изображений стиля продуктов из нескольких категорий на основе одетых людей
Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals
May 27, 2025
Авторы: Davide Lobba, Fulvio Sanguigni, Bin Ren, Marcella Cornia, Rita Cucchiara, Nicu Sebe
cs.AI
Аннотация
В то время как системы виртуальной примерки (VTON) направлены на визуализацию одежды на изображении целевого человека, данная статья решает новую задачу виртуального снятия (VTOFF), которая обратна по своей сути: генерация стандартизированных изображений товаров одежды из реальных фотографий одетых людей. В отличие от VTON, где необходимо учитывать разнообразные позы и стили, VTOFF выигрывает от согласованного и четко определенного формата вывода — обычно это плоское изображение одежды в стиле "лежащего" представления, — что делает его перспективным инструментом для генерации данных и улучшения наборов данных. Однако существующие подходы VTOFF сталкиваются с двумя основными ограничениями: (i) сложностью отделения характеристик одежды от перекрытий и сложных поз, что часто приводит к визуальным артефактам, и (ii) ограниченной применимостью к одежде одной категории (например, только верхняя одежда), что снижает обобщаемость. Для решения этих проблем мы представляем Text-Enhanced MUlti-category Virtual Try-Off (TEMU-VTOFF), новую архитектуру с двойной DiT-основой и модифицированным мультимодальным механизмом внимания для устойчивого извлечения характеристик одежды. Наша архитектура предназначена для получения информации об одежде из нескольких модальностей, таких как изображения, текст и маски, для работы в многокатегорийной среде. Наконец, мы предлагаем дополнительный модуль выравнивания для дальнейшего уточнения сгенерированных визуальных деталей. Эксперименты на наборах данных VITON-HD и Dress Code показывают, что TEMU-VTOFF устанавливает новый эталон в задаче VTOFF, значительно улучшая как визуальное качество, так и соответствие целевой одежде.
English
While virtual try-on (VTON) systems aim to render a garment onto a target
person image, this paper tackles the novel task of virtual try-off (VTOFF),
which addresses the inverse problem: generating standardized product images of
garments from real-world photos of clothed individuals. Unlike VTON, which must
resolve diverse pose and style variations, VTOFF benefits from a consistent and
well-defined output format -- typically a flat, lay-down-style representation
of the garment -- making it a promising tool for data generation and dataset
enhancement. However, existing VTOFF approaches face two major limitations: (i)
difficulty in disentangling garment features from occlusions and complex poses,
often leading to visual artifacts, and (ii) restricted applicability to
single-category garments (e.g., upper-body clothes only), limiting
generalization. To address these challenges, we present Text-Enhanced
MUlti-category Virtual Try-Off (TEMU-VTOFF), a novel architecture featuring a
dual DiT-based backbone with a modified multimodal attention mechanism for
robust garment feature extraction. Our architecture is designed to receive
garment information from multiple modalities like images, text, and masks to
work in a multi-category setting. Finally, we propose an additional alignment
module to further refine the generated visual details. Experiments on VITON-HD
and Dress Code datasets show that TEMU-VTOFF sets a new state-of-the-art on the
VTOFF task, significantly improving both visual quality and fidelity to the
target garments.Summary
AI-Generated Summary