iTryOn: Dominando la Prueba Virtual de Video Interactivo con Guía Espacial-Semántica
iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance
May 20, 2026
Autores: Jun Zheng, Zhengze Xu, Mengting Chen, Jing Wang, Jinsong Lan, Xiaoyong Zhu, Kaifu Zhang, Bo Zheng, Xiaodan Liang
cs.AI
Resumen
El Video de Prueba Virtual de Vestimenta (VVT) tiene como objetivo reemplazar de manera fluida una prenda en una persona dentro de un video por una nueva. Si bien los métodos existentes han logrado avances significativos en mantener la consistencia temporal, se limitan predominantemente a escenarios no interactivos donde los modelos simplemente exhiben prendas. Esta limitación pasa por alto un aspecto crucial de la presentación de vestimenta en el mundo real: la interacción activa entre la persona y la prenda. Para cerrar esta brecha, introducimos y formalizamos una nueva tarea desafiante: la Prueba Virtual de Vestimenta en Video Interactiva (VVT Interactiva), donde los sujetos en el video interactúan activamente con su ropa. Esta tarea introduce desafíos únicos más allá de la simple preservación de texturas, que incluyen: (1) resolver la ambigüedad semántica de las interacciones a partir de información de pose estándar, y (2) aprender deformaciones complejas de prendas a partir de videos donde los momentos interactivos son escasos y breves. Para abordar estos desafíos, proponemos iTryOn, un marco novedoso construido sobre un Transformer de difusión de video a gran escala. iTryOn introduce un mecanismo de inyección de interacción a múltiples niveles para guiar la generación de dinámicas complejas. A nivel espacial, introducimos una prioridad de mano 3D independiente de la prenda para proporcionar una guía detallada que permita un contacto preciso entre mano y prenda, resolviendo eficazmente la ambigüedad espacial. A nivel semántico, iTryOn aprovecha descripciones globales para el contexto general y subtítulos de acción con marca temporal para interacciones localizadas, sincronizados mediante nuestro novedoso Embedding de Posición Rotacional Sensible a la Acción (A-RoPE). Experimentos exhaustivos demuestran que iTryOn no solo alcanza un rendimiento de vanguardia en los puntos de referencia tradicionales de VVT, sino que también establece una ventaja dominante en el nuevo entorno interactivo, marcando un paso significativo hacia experiencias de prueba virtual más dinámicas y controlables.
English
Video Virtual Try-On (VVT) aims to seamlessly replace a garment on a person in a video with a new one. While existing methods have made significant strides in maintaining temporal consistency, they are predominantly confined to non-interactive scenarios where models merely showcase garments. This limitation overlooks a crucial aspect of real-world apparel presentation: active human-garment interaction. To bridge this gap, we introduce and formalize a new challenging task: Interactive Video Virtual Try-On (Interactive VVT), where subjects in the video actively engage with their clothing. This task introduces unique challenges beyond simple texture preservation, including: (1) resolving the semantic ambiguity of interactions from standard pose information, and (2) learning complex garment deformations from video where interactive moments are sparse and brief. To address these challenges, we propose iTryOn, a novel framework built upon a large-scale video diffusion Transformer. iTryOn pioneers a multi-level interaction injection mechanism to guide the generation of complex dynamics. At the spatial level, we introduce a garment-agnostic 3D hand prior to provide fine-grained guidance for precise hand-garment contact, effectively resolving spatial ambiguity. At the semantic level, iTryOn leverages global captions for overall context and time-stamped action captions for localized interactions, synchronized via our novel Action-aware Rotational Position Embedding (A-RoPE). Extensive experiments demonstrate that iTryOn not only achieves state-of-the-art performance on traditional VVT benchmarks but also establishes a commanding lead in the new interactive setting, marking a significant step towards more dynamic and controllable virtual try-on experiences.