Vanast: Experimentação Virtual com Animação de Imagem Humana via Supervisão de Trincas Sintéticas

Resumo

Apresentamos Vanast, uma estrutura unificada que gera vídeos de animação humana com transferência de roupa diretamente a partir de uma única imagem humana, imagens da peça de vestuário e um vídeo de orientação de pose. Os pipelines convencionais de dois estágios tratam a prova virtual baseada em imagem e a animação orientada por pose como processos separados, o que frequentemente resulta em desvio de identidade, distorção da roupa e inconsistência frente-verso. Nosso modelo aborda essas questões realizando todo o processo em uma única etapa unificada para alcançar uma síntese coerente. Para viabilizar essa configuração, construímos uma supervisão tripla em larga escala. Nosso pipeline de geração de dados inclui a geração de imagens humanas com preservação de identidade em trajes alternativos que diferem das imagens de catálogo de roupas, a captura de trios completos de peças superiores e inferiores para superar a limitação de pares vídeo-posa de peça única, e a montagem de trios diversos do mundo real sem exigir imagens de catálogo de roupas. Introduzimos ainda uma arquitetura de Módulo Duplo para transformadores de difusão de vídeo para estabilizar o treinamento, preservar a qualidade generativa pré-treinada e melhorar a precisão da roupa, a aderência à pose e a preservação da identidade, enquanto suporta interpolação de roupa zero-shot. Juntas, essas contribuições permitem que o Vanast produza animação de alta fidelidade e consistente em identidade em uma ampla gama de tipos de vestuário.

English

We present Vanast, a unified framework that generates garment-transferred human animation videos directly from a single human image, garment images, and a pose guidance video. Conventional two-stage pipelines treat image-based virtual try-on and pose-driven animation as separate processes, which often results in identity drift, garment distortion, and front-back inconsistency. Our model addresses these issues by performing the entire process in a single unified step to achieve coherent synthesis. To enable this setting, we construct large-scale triplet supervision. Our data generation pipeline includes generating identity-preserving human images in alternative outfits that differ from garment catalog images, capturing full upper and lower garment triplets to overcome the single-garment-posed video pair limitation, and assembling diverse in-the-wild triplets without requiring garment catalog images. We further introduce a Dual Module architecture for video diffusion transformers to stabilize training, preserve pretrained generative quality, and improve garment accuracy, pose adherence, and identity preservation while supporting zero-shot garment interpolation. Together, these contributions allow Vanast to produce high-fidelity, identity-consistent animation across a wide range of garment types.

Vanast: Experimentação Virtual com Animação de Imagem Humana via Supervisão de Trincas Sintéticas

Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision

Resumo

Support