Vanast: Prueba Virtual con Animación de Imágenes Humanas mediante Supervisión de Tríadas Sintéticas
Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision
April 6, 2026
Autores: Hyunsoo Cha, Wonjung Woo, Byungjun Kim, Hanbyul Joo
cs.AI
Resumen
Presentamos Vanast, un marco unificado que genera vídeos de animación humana con transferencia de prendas directamente a partir de una única imagen humana, imágenes de prendas y un vídeo guía de poses. Los enfoques convencionales en dos etapas tratan la prueba virtual de prendas basada en imagen y la animación dirigida por poses como procesos separados, lo que a menudo resulta en deriva de identidad, distorsión de la prenda e inconsistencia frontal-posterior. Nuestro modelo aborda estos problemas realizando todo el proceso en un único paso unificado para lograr una síntesis coherente. Para habilitar este enfoque, construimos una supervisión a gran escala basada en trillizos. Nuestra canalización de generación de datos incluye: generar imágenes humanas que preservan la identidad con atuendos alternativos que difieren de las imágenes de catálogo de prendas, capturar trillizos completos de prendas superiores e inferiores para superar la limitación de los pares vídeo-pose de una sola prenda, y ensamblar diversos trillizos en entornos naturales sin requerir imágenes de catálogo. Además, introducimos una arquitectura de Módulo Dual para transformadores de difusión de vídeo que estabiliza el entrenamiento, preserva la calidad generativa preentrenada y mejora la precisión de la prenda, la adherencia a la pose y la preservación de la identidad, mientras permite la interpolación cero-shot de prendas. En conjunto, estas contribuciones permiten a Vanast producir animaciones de alta fidelidad y consistentes en identidad en una amplia gama de tipos de prendas.
English
We present Vanast, a unified framework that generates garment-transferred human animation videos directly from a single human image, garment images, and a pose guidance video. Conventional two-stage pipelines treat image-based virtual try-on and pose-driven animation as separate processes, which often results in identity drift, garment distortion, and front-back inconsistency. Our model addresses these issues by performing the entire process in a single unified step to achieve coherent synthesis. To enable this setting, we construct large-scale triplet supervision. Our data generation pipeline includes generating identity-preserving human images in alternative outfits that differ from garment catalog images, capturing full upper and lower garment triplets to overcome the single-garment-posed video pair limitation, and assembling diverse in-the-wild triplets without requiring garment catalog images. We further introduce a Dual Module architecture for video diffusion transformers to stabilize training, preserve pretrained generative quality, and improve garment accuracy, pose adherence, and identity preservation while supporting zero-shot garment interpolation. Together, these contributions allow Vanast to produce high-fidelity, identity-consistent animation across a wide range of garment types.