ChatPaper.aiChatPaper

DreamVVT: Het beheersen van realistische video virtuele passen in de praktijk via een gefaseerd diffusie transformer raamwerk

DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework

August 4, 2025
Auteurs: Tongchun Zuo, Zaiyu Huang, Shuliang Ning, Ente Lin, Chao Liang, Zerong Zheng, Jianwen Jiang, Yuan Zhang, Mingyuan Gao, Xin Dong
cs.AI

Samenvatting

Video virtual try-on (VVT)-technologie heeft aanzienlijke academische belangstelling gewekt vanwege de veelbelovende toepassingen in e-commerceadvertenties en entertainment. De meeste bestaande end-to-end-methoden zijn echter sterk afhankelijk van schaarse, gekoppelde datasets die gericht zijn op kleding en slagen er niet in om voorafgaande kennis van geavanceerde visuele modellen en testtijdinputs effectief te benutten. Dit maakt het uitdagend om fijnmazige kledingdetails nauwkeurig te behouden en temporele consistentie te handhaven in onbeperkte scenario's. Om deze uitdagingen aan te pakken, stellen we DreamVVT voor, een zorgvuldig ontworpen tweestapsraamwerk gebaseerd op Diffusion Transformers (DiTs), dat van nature in staat is om diverse ongepaarde mensgerichte data te benutten om de aanpassingsvermogen in real-world scenario's te vergroten. Om voorafgaande kennis van vooraf getrainde modellen en testtijdinputs verder te benutten, nemen we in de eerste fase representatieve frames uit de invoervideo en gebruiken we een multi-frame try-on-model geïntegreerd met een vision-language model (VLM) om hoogwaardige en semantisch consistente keyframe try-on-afbeeldingen te synthetiseren. Deze afbeeldingen dienen als aanvullende uiterlijke begeleiding voor de daaropvolgende videogeneratie. In de tweede fase worden skeletkaarten samen met fijnmazige bewegingen en uiterlijke beschrijvingen uit de invoerinhoud geëxtraheerd, en deze worden samen met de keyframe try-on-afbeeldingen ingevoerd in een vooraf getraind videogeneratiemodel dat is versterkt met LoRA-adapters. Dit zorgt voor langdurige temporele samenhang voor onbekende regio's en maakt zeer plausibele dynamische bewegingen mogelijk. Uitgebreide kwantitatieve en kwalitatieve experimenten tonen aan dat DreamVVT bestaande methoden overtreft in het behouden van gedetailleerde kledinginhoud en temporele stabiliteit in real-world scenario's. Onze projectpagina is te vinden op https://virtu-lab.github.io/.
English
Video virtual try-on (VVT) technology has garnered considerable academic interest owing to its promising applications in e-commerce advertising and entertainment. However, most existing end-to-end methods rely heavily on scarce paired garment-centric datasets and fail to effectively leverage priors of advanced visual models and test-time inputs, making it challenging to accurately preserve fine-grained garment details and maintain temporal consistency in unconstrained scenarios. To address these challenges, we propose DreamVVT, a carefully designed two-stage framework built upon Diffusion Transformers (DiTs), which is inherently capable of leveraging diverse unpaired human-centric data to enhance adaptability in real-world scenarios. To further leverage prior knowledge from pretrained models and test-time inputs, in the first stage, we sample representative frames from the input video and utilize a multi-frame try-on model integrated with a vision-language model (VLM), to synthesize high-fidelity and semantically consistent keyframe try-on images. These images serve as complementary appearance guidance for subsequent video generation. In the second stage, skeleton maps together with fine-grained motion and appearance descriptions are extracted from the input content, and these along with the keyframe try-on images are then fed into a pretrained video generation model enhanced with LoRA adapters. This ensures long-term temporal coherence for unseen regions and enables highly plausible dynamic motions. Extensive quantitative and qualitative experiments demonstrate that DreamVVT surpasses existing methods in preserving detailed garment content and temporal stability in real-world scenarios. Our project page https://virtu-lab.github.io/
PDF122August 7, 2025