Vanast: Virtueel Passen met Menselijke Beeldanimatie via Synthetische Drieling-supervisie
Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision
April 6, 2026
Auteurs: Hyunsoo Cha, Wonjung Woo, Byungjun Kim, Hanbyul Joo
cs.AI
Samenvatting
Wij presenteren Vanast, een uniform kader dat geanimeerde video's met kledingoverdracht direct genereert vanuit een enkele menselijke afbeelding, kledingafbeeldingen en een videoposegids. Conventionele pipelines in twee fasen behandelen op afbeeldingen gebaseerd virtueel passen en pose-gestuurde animatie als afzonderlijke processen, wat vaak leidt tot identiteitsverandering, kledingvervorming en voor-achter inconsistentie. Ons model lost deze problemen op door het gehele proces in één uniforme stap uit te voeren voor een coherente synthese. Om deze setting mogelijk te maken, construeren we grootschalige triplettoezicht. Onze datageneratiepipeline omvat het genereren van identiteitbewarende menselijke afbeeldingen in alternatieve outfits die verschillen van kledingcatalogusafbeeldingen, het vastleggen van volledige boven- en onderkledingtriplets om de beperking van paren met één kledingstuk en pose te overwinnen, en het samenstellen van diverse tripletten uit de praktijk zonder kledingcatalogusafbeeldingen nodig te hebben. Wij introduceren verder een Dual Module-architectuur voor videodiffusietransformers om de training te stabiliseren, de vooraf getrainde generatieve kwaliteit te behouden, en de kledingnauwkeurigheid, posevolging en identiteitsbehoud te verbeteren, terwijl zero-shot kledinginterpolatie wordt ondersteund. Gezamenlijk stellen deze bijdragen Vanast in staat om hoogwaardige, identiteitconsistente animatie te produceren voor een breed scala aan kledingtypes.
English
We present Vanast, a unified framework that generates garment-transferred human animation videos directly from a single human image, garment images, and a pose guidance video. Conventional two-stage pipelines treat image-based virtual try-on and pose-driven animation as separate processes, which often results in identity drift, garment distortion, and front-back inconsistency. Our model addresses these issues by performing the entire process in a single unified step to achieve coherent synthesis. To enable this setting, we construct large-scale triplet supervision. Our data generation pipeline includes generating identity-preserving human images in alternative outfits that differ from garment catalog images, capturing full upper and lower garment triplets to overcome the single-garment-posed video pair limitation, and assembling diverse in-the-wild triplets without requiring garment catalog images. We further introduce a Dual Module architecture for video diffusion transformers to stabilize training, preserve pretrained generative quality, and improve garment accuracy, pose adherence, and identity preservation while supporting zero-shot garment interpolation. Together, these contributions allow Vanast to produce high-fidelity, identity-consistent animation across a wide range of garment types.