Dress&Dance: 원하는 대로 옷 입고 춤추기 - 기술 프리뷰
Dress&Dance: Dress up and Dance as You Like It - Technical Preview
August 28, 2025
저자: Jun-Kun Chen, Aayush Bansal, Minh Phuoc Vo, Yu-Xiong Wang
cs.AI
초록
우리는 Dress&Dance를 소개합니다. 이는 사용자가 원하는 의상을 입고 주어진 참조 비디오에 따라 움직이는 모습을 1152x720 해상도로 24 FPS의 고품질 5초 길이 가상 피팅 비디오를 생성하는 비디오 확산 프레임워크입니다. 우리의 접근 방식은 단일 사용자 이미지만을 요구하며, 다양한 상의, 하의, 원피스 의상은 물론 한 번에 상의와 하의를 동시에 피팅하는 것을 지원합니다. 우리 프레임워크의 핵심은 CondNet으로, 이는 텍스트, 이미지, 비디오와 같은 다중 모달 입력을 통합하기 위해 주의 메커니즘을 활용하여 의상 등록과 움직임의 정확도를 향상시키는 새로운 조건부 네트워크입니다. CondNet은 제한된 비디오 데이터와 더 크고 쉽게 이용 가능한 이미지 데이터셋을 결합한 이질적인 학습 데이터를 다단계 점진적 방식으로 학습합니다. Dress&Dance는 기존의 오픈 소스 및 상용 솔루션을 능가하며, 고품질과 유연한 피팅 경험을 가능하게 합니다.
English
We present Dress&Dance, a video diffusion framework that generates high
quality 5-second-long 24 FPS virtual try-on videos at 1152x720 resolution of a
user wearing desired garments while moving in accordance with a given reference
video. Our approach requires a single user image and supports a range of tops,
bottoms, and one-piece garments, as well as simultaneous tops and bottoms
try-on in a single pass. Key to our framework is CondNet, a novel conditioning
network that leverages attention to unify multi-modal inputs (text, images, and
videos), thereby enhancing garment registration and motion fidelity. CondNet is
trained on heterogeneous training data, combining limited video data and a
larger, more readily available image dataset, in a multistage progressive
manner. Dress&Dance outperforms existing open source and commercial solutions
and enables a high quality and flexible try-on experience.