ChatPaper.aiChatPaper

iTryOn: Dominando a Prova Virtual Interativa em Vídeo com Orientação Semântico-Espacial

iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance

May 20, 2026
Autores: Jun Zheng, Zhengze Xu, Mengting Chen, Jing Wang, Jinsong Lan, Xiaoyong Zhu, Kaifu Zhang, Bo Zheng, Xiaodan Liang
cs.AI

Resumo

Vídeo Virtual Try-On (VVT) visa substituir perfeitamente uma peça de vestuário em uma pessoa em um vídeo por uma nova. Embora os métodos existentes tenham feito avanços significativos na manutenção da consistência temporal, eles estão predominantemente confinados a cenários não interativos, onde os modelos apenas exibem as roupas. Essa limitação ignora um aspecto crucial da apresentação de vestuário no mundo real: a interação ativa entre humano e vestimenta. Para preencher essa lacuna, introduzimos e formalizamos uma nova tarefa desafiadora: o Vídeo Virtual Try-On Interativo (VVT Interativo), onde os sujeitos no vídeo interagem ativamente com suas roupas. Essa tarefa introduz desafios únicos além da simples preservação de textura, incluindo: (1) resolver a ambiguidade semântica das interações a partir de informações de pose padrão, e (2) aprender deformações complexas da vestimenta a partir de vídeos onde os momentos interativos são esparsos e breves. Para enfrentar esses desafios, propomos o iTryOn, uma nova estrutura construída sobre um Transformer de difusão de vídeo em larga escala. O iTryOn é pioneiro em um mecanismo de injeção de interação em múltiplos níveis para orientar a geração de dinâmicas complexas. No nível espacial, introduzimos um antecedente de mão 3D agnóstico à vestimenta para fornecer orientação refinada para o contato preciso mão-vestimenta, resolvendo efetivamente a ambiguidade espacial. No nível semântico, o iTryOn utiliza legendas globais para contexto geral e legendas de ação com carimbo de tempo para interações localizadas, sincronizadas por meio de nosso novo Embedding de Posição Rotacional Sensível à Ação (A-RoPE). Experimentos extensivos demonstram que o iTryOn não apenas alcança desempenho de última geração nos benchmarks tradicionais de VVT, mas também estabelece uma liderança dominante no novo cenário interativo, marcando um passo significativo em direção a experiências de prova virtual mais dinâmicas e controláveis.
English
Video Virtual Try-On (VVT) aims to seamlessly replace a garment on a person in a video with a new one. While existing methods have made significant strides in maintaining temporal consistency, they are predominantly confined to non-interactive scenarios where models merely showcase garments. This limitation overlooks a crucial aspect of real-world apparel presentation: active human-garment interaction. To bridge this gap, we introduce and formalize a new challenging task: Interactive Video Virtual Try-On (Interactive VVT), where subjects in the video actively engage with their clothing. This task introduces unique challenges beyond simple texture preservation, including: (1) resolving the semantic ambiguity of interactions from standard pose information, and (2) learning complex garment deformations from video where interactive moments are sparse and brief. To address these challenges, we propose iTryOn, a novel framework built upon a large-scale video diffusion Transformer. iTryOn pioneers a multi-level interaction injection mechanism to guide the generation of complex dynamics. At the spatial level, we introduce a garment-agnostic 3D hand prior to provide fine-grained guidance for precise hand-garment contact, effectively resolving spatial ambiguity. At the semantic level, iTryOn leverages global captions for overall context and time-stamped action captions for localized interactions, synchronized via our novel Action-aware Rotational Position Embedding (A-RoPE). Extensive experiments demonstrate that iTryOn not only achieves state-of-the-art performance on traditional VVT benchmarks but also establishes a commanding lead in the new interactive setting, marking a significant step towards more dynamic and controllable virtual try-on experiences.