FIT: Крупномасштабный набор данных для виртуальной примерки с учетом посадки
FIT: A Large-Scale Dataset for Fit-Aware Virtual Try-On
April 9, 2026
Авторы: Johanna Karras, Yuanhao Wang, Yingwei Li, Ira Kemelmacher-Shlizerman
cs.AI
Аннотация
Задача виртуальной примерки (VTO) заключается в синтезе реалистичного изображения человека в заданной одежде с сохранением его исходной позы и идентичности. Хотя современные методы VTO успешно визуализируют внешний вид одежды, они в значительной степени упускают из виду ключевой аспект примерки — точность посадки, например, отображение того, как рубашка размера XL выглядит на человеке размера XS. Основным препятствием является отсутствие наборов данных с точной информацией о размерах тела и одежды, особенно для случаев «неправильной посадки», когда одежда значительно больше или меньше нужного. В результате современные методы VTO по умолчанию генерируют изображения с идеальной посадкой независимо от реальных размеров.
В данной статье мы делаем первые шаги к решению этой открытой проблемы. Мы представляем FIT (Fit-Inclusive Try-on) — крупномасштабный набор данных для VTO, содержащий более 1,13 млн триплетов изображений для примерки с точными измерениями тела и одежды. Мы преодолели сложности сбора данных с помощью масштабируемой синтетической стратегии: (1) Программно генерируем 3D-одежду с использованием GarmentCode и накладываем её с помощью физического моделирования для передачи реалистичной посадки. (2) Применяем новую систему перетекстурирования для преобразования синтетических рендеров в фотореалистичные изображения с строгим сохранением геометрии. (3) Внедряем механизм сохранения идентичности человека в нашу модель перетекстурирования для генерации парных изображений (один человек в разной одежды) для обучения с учителем. Наконец, мы используем набор данных FIT для обучения базовой модели виртуальной примерки с учётом посадки. Наши данные и результаты устанавливают новый state-of-the-art для задач VTO с учётом посадки, а также создают надёжный бенчмарк для будущих исследований. Все данные и код будут общедоступны на странице проекта: https://johannakarras.github.io/FIT.
English
Given a person and a garment image, virtual try-on (VTO) aims to synthesize a realistic image of the person wearing the garment, while preserving their original pose and identity. Although recent VTO methods excel at visualizing garment appearance, they largely overlook a crucial aspect of the try-on experience: the accuracy of garment fit -- for example, depicting how an extra-large shirt looks on an extra-small person. A key obstacle is the absence of datasets that provide precise garment and body size information, particularly for "ill-fit" cases, where garments are significantly too large or too small. Consequently, current VTO methods default to generating well-fitted results regardless of the garment or person size.
In this paper, we take the first steps towards solving this open problem. We introduce FIT (Fit-Inclusive Try-on), a large-scale VTO dataset comprising over 1.13M try-on image triplets accompanied by precise body and garment measurements. We overcome the challenges of data collection via a scalable synthetic strategy: (1) We programmatically generate 3D garments using GarmentCode and drape them via physics simulation to capture realistic garment fit. (2) We employ a novel re-texturing framework to transform synthetic renderings into photorealistic images while strictly preserving geometry. (3) We introduce person identity preservation into our re-texturing model to generate paired person images (same person, different garments) for supervised training. Finally, we leverage our FIT dataset to train a baseline fit-aware virtual try-on model. Our data and results set the new state-of-the-art for fit-aware virtual try-on, as well as offer a robust benchmark for future research. We will make all data and code publicly available on our project page: https://johannakarras.github.io/FIT.