Vanast: Virtual Try-On con Animazione di Immagini Umane tramite Supervisione Tripla Sintetica

Abstract

Presentiamo Vanast, un framework unificato che genera video di animazione umana con trasferimento di indumenti direttamente da una singola immagine umana, immagini di indumenti e un video guida delle pose. Le pipeline convenzionali a due stadi trattano il virtual try-on basato su immagini e l'animazione guidata dalle pose come processi separati, il che spesso si traduce in deriva dell'identità, distorsione degli indumenti e incoerenza anteriore-posteriore. Il nostro modello affronta questi problemi eseguendo l'intero processo in un unico passo unificato per ottenere una sintesi coerente. Per abilitare questa impostazione, costruiamo una supervisione triplet su larga scala. La nostra pipeline di generazione dei dati include la generazione di immagini umane che preservano l'identità con outfit alternativi diversi dalle immagini del catalogo degli indumenti, la cattura di triplette complete di indumenti superiori e inferiori per superare la limitazione delle coppie video-posa a singolo indumento, e l'assemblaggio di triplette diversificate in contesti reali senza richiedere immagini da catalogo. Introduciamo inoltre un'architettura a Modulo Duale per i transformer di diffusione video per stabilizzare l'addestramento, preservare la qualità generativa pre-addestrata e migliorare l'accuratezza degli indumenti, l'aderenza alle pose e la preservazione dell'identità, supportando allo stesso tempo l'interpolazione zero-shot degli indumenti. Insieme, questi contributi consentono a Vanast di produrre animazioni ad alta fedeltà e consistenti nell'identità per un'ampia gamma di tipi di indumenti.

English

We present Vanast, a unified framework that generates garment-transferred human animation videos directly from a single human image, garment images, and a pose guidance video. Conventional two-stage pipelines treat image-based virtual try-on and pose-driven animation as separate processes, which often results in identity drift, garment distortion, and front-back inconsistency. Our model addresses these issues by performing the entire process in a single unified step to achieve coherent synthesis. To enable this setting, we construct large-scale triplet supervision. Our data generation pipeline includes generating identity-preserving human images in alternative outfits that differ from garment catalog images, capturing full upper and lower garment triplets to overcome the single-garment-posed video pair limitation, and assembling diverse in-the-wild triplets without requiring garment catalog images. We further introduce a Dual Module architecture for video diffusion transformers to stabilize training, preserve pretrained generative quality, and improve garment accuracy, pose adherence, and identity preservation while supporting zero-shot garment interpolation. Together, these contributions allow Vanast to produce high-fidelity, identity-consistent animation across a wide range of garment types.

Vanast: Virtual Try-On con Animazione di Immagini Umane tramite Supervisione Tripla Sintetica

Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision

Abstract

Support