Vanast: Виртуальная примерка с анимацией изображения человека на основе синтетического тройного контроля
Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision
April 6, 2026
Авторы: Hyunsoo Cha, Wonjung Woo, Byungjun Kim, Hanbyul Joo
cs.AI
Аннотация
Мы представляем Vanast — унифицированную систему, которая генерирует анимационные видео с переносом одежды непосредственно из одного изображения человека, изображений одежды и видео с позовым руководством. Традиционные двухэтапные подходы рассматривают виртуальную примерку на основе изображений и анимацию, управляемую позой, как отдельные процессы, что часто приводит к дрейфу идентичности, искажению одежды и несоответствию между видом спереди и сзади. Наша модель решает эти проблемы, выполняя весь процесс в едином шаге для достижения согласованного синтеза. Для реализации такого подхода мы создаем масштабное triplet-обучение. Наш конвейер генерации данных включает: создание сохраняющих идентичность изображений людей в альтернативной одежде, отличающейся от изображений каталога; захват triplet-данных для полной верхней и нижней одежды для преодоления ограничения пар "одна вещь — видео с позой"; и сбор разнообразных triplet-данных из реальных условий без необходимости в изображениях из каталога одежды. Дополнительно мы представляем архитектуру Dual Module для видео-диффузионных трансформеров, чтобы стабилизировать обучение, сохранить качество предобученной генерации и улучшить точность передачи одежды, соответствие позе и сохранение идентичности, одновременно поддерживая интерполяцию одежды в режиме zero-shot. В совокупности эти достижения позволяют Vanast создавать высококачественную, идентично-согласованную анимацию для широкого спектра типов одежды.
English
We present Vanast, a unified framework that generates garment-transferred human animation videos directly from a single human image, garment images, and a pose guidance video. Conventional two-stage pipelines treat image-based virtual try-on and pose-driven animation as separate processes, which often results in identity drift, garment distortion, and front-back inconsistency. Our model addresses these issues by performing the entire process in a single unified step to achieve coherent synthesis. To enable this setting, we construct large-scale triplet supervision. Our data generation pipeline includes generating identity-preserving human images in alternative outfits that differ from garment catalog images, capturing full upper and lower garment triplets to overcome the single-garment-posed video pair limitation, and assembling diverse in-the-wild triplets without requiring garment catalog images. We further introduce a Dual Module architecture for video diffusion transformers to stabilize training, preserve pretrained generative quality, and improve garment accuracy, pose adherence, and identity preservation while supporting zero-shot garment interpolation. Together, these contributions allow Vanast to produce high-fidelity, identity-consistent animation across a wide range of garment types.