Vanast: 합성 트리플렛 감독을 통한 인간 이미지 애니메이션 기반 가상 피팅
Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision
April 6, 2026
저자: Hyunsoo Cha, Wonjung Woo, Byungjun Kim, Hanbyul Joo
cs.AI
초록
본 논문에서는 단일 인물 이미지, 의류 이미지, 그리고 포즈 가이드 영상으로부터 직접 의류가 적용된 인간 애니메이션 영상을 생성하는 통합 프레임워크인 Vanast를 제안한다. 기존의 2단계 파이프라인은 이미지 기반 가상 착용과 포즈 기반 애니메이션을 별개의 과정으로 처리하여 신원 이탈, 의류 왜곡, 전후 불일치 등의 문제가 자주 발생했다. 우리 모델은 이러한 문제를 통합된 단일 단계에서 전체 과정을 수행하여 일관된 합성 결과를 달성함으로써 해결한다. 이러한 설정을 가능하게 하기 위해 대규모 삼중항(triplet) 감독 데이터를 구축했다. 우리의 데이터 생성 파이프라인은 의류 카탈로그 이미지와 다른 대체 의상을 입은 신원 보존 인물 이미지 생성, 단일 의류-포즈 영상 쌍의 한계를 극복하기 위한 상·하의 전체 의류 삼중항 확보, 그리고 의류 카탈로그 이미지가 필요 없는 다양한 실제 환경(in-the-wild) 삼중항 구성을 포함한다. 또한 비디오 디퓨전 트랜스포머를 위한 듀얼 모듈 아키텍처를 도입하여 학습 안정화와 사전 학습된 생성 품질 보존을 꾀하고, 제로샷 의류 보간(zero-shot garment interpolation)을 지원하면서 의류 정확도, 포즈 준수도, 신원 보존 성능을 향상시켰다. 이러한 공헌을 통해 Vanast는 다양한 의류 유형에 걸쳐 높은 정밀도와 신원 일관성을 갖춘 애니메이션을 생성할 수 있다.
English
We present Vanast, a unified framework that generates garment-transferred human animation videos directly from a single human image, garment images, and a pose guidance video. Conventional two-stage pipelines treat image-based virtual try-on and pose-driven animation as separate processes, which often results in identity drift, garment distortion, and front-back inconsistency. Our model addresses these issues by performing the entire process in a single unified step to achieve coherent synthesis. To enable this setting, we construct large-scale triplet supervision. Our data generation pipeline includes generating identity-preserving human images in alternative outfits that differ from garment catalog images, capturing full upper and lower garment triplets to overcome the single-garment-posed video pair limitation, and assembling diverse in-the-wild triplets without requiring garment catalog images. We further introduce a Dual Module architecture for video diffusion transformers to stabilize training, preserve pretrained generative quality, and improve garment accuracy, pose adherence, and identity preservation while supporting zero-shot garment interpolation. Together, these contributions allow Vanast to produce high-fidelity, identity-consistent animation across a wide range of garment types.