iTryOn: Het beheersen van interactieve video-virtuele pasbeurt met ruimtelijk-semantische sturing
iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance
May 20, 2026
Auteurs: Jun Zheng, Zhengze Xu, Mengting Chen, Jing Wang, Jinsong Lan, Xiaoyong Zhu, Kaifu Zhang, Bo Zheng, Xiaodan Liang
cs.AI
Samenvatting
Video Virtual Try-On (VVT) streeft ernaar om een kledingstuk op een persoon in een video naadloos te vervangen door een nieuw exemplaar. Hoewel bestaande methoden aanzienlijke vooruitgang hebben geboekt in het handhaven van temporele consistentie, blijven ze voornamelijk beperkt tot niet-interactieve scenario's waarin modellen alleen kledingstukken tonen. Deze beperking ziet een cruciaal aspect van realistische kledingpresentatie over het hoofd: actieve mens-kledinginteractie. Om deze kloof te overbruggen introduceren en formaliseren we een nieuwe uitdagende taak: Interactive Video Virtual Try-On (Interactive VVT), waarbij proefpersonen in de video actief met hun kleding omgaan. Deze taak introduceert unieke uitdagingen die verder gaan dan eenvoudig textuurbehoud, waaronder: (1) het oplossen van de semantische ambiguïteit van interacties op basis van standaard pose-informatie, en (2) het leren van complexe kledingvervormingen uit video waarin interactieve momenten schaars en kort zijn.
Om deze uitdagingen aan te pakken stellen we iTryOn voor, een nieuw raamwerk gebouwd op een grootschalige video-diffusie-Transformer. iTryOn introduceert een multi-level interactie-injectiemechanisme om de generatie van complexe dynamiek te sturen. Op ruimtelijk niveau introduceren we een kleding-agnostische 3D-hand-prior om fijnmazige begeleiding te bieden voor nauwkeurig hand-kledingcontact, waarmee ruimtelijke ambiguïteit effectief wordt opgelost. Op semantisch niveau maakt iTryOn gebruik van globale bijschriften voor algehele context en tijdgestempelde actiebijschriften voor gelokaliseerde interacties, gesynchroniseerd via onze nieuwe Action-aware Rotational Position Embedding (A-RoPE). Uitgebreide experimenten tonen aan dat iTryOn niet alleen state-of-the-art prestaties levert op traditionele VVT-benchmarks, maar ook een dominante voorsprong neemt in de nieuwe interactieve setting, wat een belangrijke stap markeert naar meer dynamische en controleerbare virtuele paskamerervaringen.
English
Video Virtual Try-On (VVT) aims to seamlessly replace a garment on a person in a video with a new one. While existing methods have made significant strides in maintaining temporal consistency, they are predominantly confined to non-interactive scenarios where models merely showcase garments. This limitation overlooks a crucial aspect of real-world apparel presentation: active human-garment interaction. To bridge this gap, we introduce and formalize a new challenging task: Interactive Video Virtual Try-On (Interactive VVT), where subjects in the video actively engage with their clothing. This task introduces unique challenges beyond simple texture preservation, including: (1) resolving the semantic ambiguity of interactions from standard pose information, and (2) learning complex garment deformations from video where interactive moments are sparse and brief. To address these challenges, we propose iTryOn, a novel framework built upon a large-scale video diffusion Transformer. iTryOn pioneers a multi-level interaction injection mechanism to guide the generation of complex dynamics. At the spatial level, we introduce a garment-agnostic 3D hand prior to provide fine-grained guidance for precise hand-garment contact, effectively resolving spatial ambiguity. At the semantic level, iTryOn leverages global captions for overall context and time-stamped action captions for localized interactions, synchronized via our novel Action-aware Rotational Position Embedding (A-RoPE). Extensive experiments demonstrate that iTryOn not only achieves state-of-the-art performance on traditional VVT benchmarks but also establishes a commanding lead in the new interactive setting, marking a significant step towards more dynamic and controllable virtual try-on experiences.