ChatPaper.aiChatPaper

Dress&Dance: Kleide dich an und tanze, wie es dir gefällt – Technische Vorschau

Dress&Dance: Dress up and Dance as You Like It - Technical Preview

August 28, 2025
papers.authors: Jun-Kun Chen, Aayush Bansal, Minh Phuoc Vo, Yu-Xiong Wang
cs.AI

papers.abstract

Wir präsentieren Dress&Dance, ein Video-Diffusions-Framework, das hochwertige 5-Sekunden-lange 24-FPS-Virtual-Try-On-Videos in einer Auflösung von 1152x720 erzeugt. Diese zeigen einen Nutzer, der gewünschte Kleidungsstücke trägt und sich entsprechend eines gegebenen Referenzvideos bewegt. Unser Ansatz benötigt lediglich ein einzelnes Nutzerbild und unterstützt eine Vielzahl von Oberteilen, Unterteilen sowie einteiligen Kleidungsstücken, ebenso wie das gleichzeitige Anprobieren von Ober- und Unterteilen in einem einzigen Durchlauf. Kern unseres Frameworks ist CondNet, ein neuartiges Konditionierungsnetzwerk, das Aufmerksamkeitsmechanismen nutzt, um multimodale Eingaben (Text, Bilder und Videos) zu vereinen und dadurch die Registrierung der Kleidungsstücke sowie die Bewegungsgenauigkeit zu verbessern. CondNet wird auf heterogenen Trainingsdaten trainiert, die begrenzte Videodaten und einen größeren, leichter verfügbaren Bilddatensatz in einem mehrstufigen, progressiven Verfahren kombinieren. Dress&Dance übertrifft bestehende Open-Source- und kommerzielle Lösungen und ermöglicht ein hochwertiges und flexibles Try-On-Erlebnis.
English
We present Dress&Dance, a video diffusion framework that generates high quality 5-second-long 24 FPS virtual try-on videos at 1152x720 resolution of a user wearing desired garments while moving in accordance with a given reference video. Our approach requires a single user image and supports a range of tops, bottoms, and one-piece garments, as well as simultaneous tops and bottoms try-on in a single pass. Key to our framework is CondNet, a novel conditioning network that leverages attention to unify multi-modal inputs (text, images, and videos), thereby enhancing garment registration and motion fidelity. CondNet is trained on heterogeneous training data, combining limited video data and a larger, more readily available image dataset, in a multistage progressive manner. Dress&Dance outperforms existing open source and commercial solutions and enables a high quality and flexible try-on experience.
PDF32August 29, 2025