ChatPaper.aiChatPaper

Dress&Dance : Habillez-vous et Dansez à Votre Guise - Aperçu Technique

Dress&Dance: Dress up and Dance as You Like It - Technical Preview

August 28, 2025
papers.authors: Jun-Kun Chen, Aayush Bansal, Minh Phuoc Vo, Yu-Xiong Wang
cs.AI

papers.abstract

Nous présentons Dress&Dance, un framework de diffusion vidéo qui génère des vidéos d'essayage virtuel de haute qualité d'une durée de 5 secondes à 24 images par seconde et une résolution de 1152x720 pixels, montrant un utilisateur portant des vêtements souhaités tout en se déplaçant selon une vidéo de référence donnée. Notre approche nécessite une seule image de l'utilisateur et prend en charge une gamme de hauts, de bas et de vêtements une pièce, ainsi que l'essayage simultané de hauts et de bas en une seule passe. Un élément clé de notre framework est CondNet, un réseau de conditionnement novateur qui exploite l'attention pour unifier des entrées multimodales (texte, images et vidéos), améliorant ainsi l'enregistrement des vêtements et la fidélité du mouvement. CondNet est entraîné sur des données hétérogènes, combinant un ensemble limité de vidéos et un ensemble d'images plus large et plus facilement disponible, de manière progressive et en plusieurs étapes. Dress&Dance surpasse les solutions open source et commerciales existantes et offre une expérience d'essayage de haute qualité et flexible.
English
We present Dress&Dance, a video diffusion framework that generates high quality 5-second-long 24 FPS virtual try-on videos at 1152x720 resolution of a user wearing desired garments while moving in accordance with a given reference video. Our approach requires a single user image and supports a range of tops, bottoms, and one-piece garments, as well as simultaneous tops and bottoms try-on in a single pass. Key to our framework is CondNet, a novel conditioning network that leverages attention to unify multi-modal inputs (text, images, and videos), thereby enhancing garment registration and motion fidelity. CondNet is trained on heterogeneous training data, combining limited video data and a larger, more readily available image dataset, in a multistage progressive manner. Dress&Dance outperforms existing open source and commercial solutions and enables a high quality and flexible try-on experience.
PDF42August 29, 2025