Vanast : Essayage Virtuel par Animation d'Image Humaine via Supervision par Triplet Synthétique
Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision
April 6, 2026
Auteurs: Hyunsoo Cha, Wonjung Woo, Byungjun Kim, Hanbyul Joo
cs.AI
Résumé
Nous présentons Vanast, un cadre unifié générant directement des vidéos d'animation humaine avec transfert de vêtements à partir d'une seule image humaine, d'images de vêtements et d'une vidéo de guidage de pose. Les approches conventionnelles en deux étapes traitent l'essayage virtuel basé sur l'image et l'animation pilotée par la pose comme des processus distincts, ce qui entraîne souvent une dérive identitaire, une distorsion des vêtements et une incohérence avant-arrière. Notre modèle résout ces problèmes en effectuant l'intégralité du processus en une seule étape unifiée pour obtenir une synthèse cohérente. Pour permettre ce cadre, nous construisons une supervision à grande échelle par triplets. Notre pipeline de génération de données comprend la génération d'images humaines préservant l'identité avec des tenues alternatives différentes des images de catalogue, la capture de triplets complets (haut et bas) pour surmonter la limitation des paires vidéo-pose à vêtement unique, et l'assemblage de triplets divers "in-the-wild" sans nécessiter d'images de catalogue. Nous introduisons en outre une architecture à Double Module pour les transformateurs de diffusion vidéo afin de stabiliser l'entraînement, de préserver la qualité générative pré-entraînée, et d'améliorer la précision des vêtements, l'adhésion à la pose et la préservation de l'identité, tout en supportant l'interpolation de vêtements zero-shot. Ensemble, ces contributions permettent à Vanast de produire une animation de haute fidélité et cohérente sur l'identité pour une large gamme de types de vêtements.
English
We present Vanast, a unified framework that generates garment-transferred human animation videos directly from a single human image, garment images, and a pose guidance video. Conventional two-stage pipelines treat image-based virtual try-on and pose-driven animation as separate processes, which often results in identity drift, garment distortion, and front-back inconsistency. Our model addresses these issues by performing the entire process in a single unified step to achieve coherent synthesis. To enable this setting, we construct large-scale triplet supervision. Our data generation pipeline includes generating identity-preserving human images in alternative outfits that differ from garment catalog images, capturing full upper and lower garment triplets to overcome the single-garment-posed video pair limitation, and assembling diverse in-the-wild triplets without requiring garment catalog images. We further introduce a Dual Module architecture for video diffusion transformers to stabilize training, preserve pretrained generative quality, and improve garment accuracy, pose adherence, and identity preservation while supporting zero-shot garment interpolation. Together, these contributions allow Vanast to produce high-fidelity, identity-consistent animation across a wide range of garment types.