Vanast: Virtuelles Anprobieren mit menschlicher Bildanimation durch synthetische Triplett-Überwachung
Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision
April 6, 2026
Autoren: Hyunsoo Cha, Wonjung Woo, Byungjun Kim, Hanbyul Joo
cs.AI
Zusammenfassung
Wir stellen Vanast vor, einen einheitlichen Rahmen, der Kleidungs-transferierte menschliche Animationsvideos direkt aus einem einzelnen menschlichen Bild, Kleidungsbildern und einem Posenerleitungsvideo erzeugt. Herkömmliche Zwei-Stufen-Pipelines behandeln bildbasierte virtuelle Anprobe und posengesteuerte Animation als separate Prozesse, was häufig zu Identitätsdrift, Kleidungsverzerrung und Vorder-/Rückseiten-Inkonsistenz führt. Unser Modell behebt diese Probleme, indem es den gesamten Prozess in einem einzigen vereinheitlichten Schritt durchführt, um eine kohärente Synthese zu erreichen. Um diese Einstellung zu ermöglichen, konstruieren wir eine groß angelegte Triplet-Aufsicht. Unsere Daten-Erzeugungspipeline umfasst die Generierung identitätserhaltender menschlicher Bilder in alternativen Outfits, die sich von Kleidungskatalogbildern unterscheiden, die Erfassung vollständiger Ober- und Unterkleidungs-Triplets, um die Einschränkung von Einzelkleidungs-Posen-Video-Paaren zu überwinden, sowie die Zusammenstellung diverser In-the-Wild-Triplets ohne Kleidungskatalogbilder. Wir führen weiterhin eine Dual-Modul-Architektur für Video-Diffusion-Transformer ein, um das Training zu stabilisieren, die vortrainierte generative Qualität zu bewahren und die Kleidungsgenauigkeit, Posentreue und Identitätserhaltung zu verbessern, während gleichzeitig Null-Shot-Kleidungsinterpolation unterstützt wird. Zusammengenommen ermöglichen diese Beiträge Vanast, hochwertige, identitätskonsistente Animationen über eine breite Palette von Kleidungstypen hinweg zu erzeugen.
English
We present Vanast, a unified framework that generates garment-transferred human animation videos directly from a single human image, garment images, and a pose guidance video. Conventional two-stage pipelines treat image-based virtual try-on and pose-driven animation as separate processes, which often results in identity drift, garment distortion, and front-back inconsistency. Our model addresses these issues by performing the entire process in a single unified step to achieve coherent synthesis. To enable this setting, we construct large-scale triplet supervision. Our data generation pipeline includes generating identity-preserving human images in alternative outfits that differ from garment catalog images, capturing full upper and lower garment triplets to overcome the single-garment-posed video pair limitation, and assembling diverse in-the-wild triplets without requiring garment catalog images. We further introduce a Dual Module architecture for video diffusion transformers to stabilize training, preserve pretrained generative quality, and improve garment accuracy, pose adherence, and identity preservation while supporting zero-shot garment interpolation. Together, these contributions allow Vanast to produce high-fidelity, identity-consistent animation across a wide range of garment types.