iTryOn : Maîtrise de l'essayage virtuel interactif en vidéo avec guidage spatial-sémantique

Résumé

L'essayage virtuel vidéo (VVT) vise à remplacer de manière transparente un vêtement porté par une personne dans une vidéo par un nouveau. Bien que les méthodes existantes aient réalisé des progrès significatifs dans le maintien de la cohérence temporelle, elles sont principalement limitées à des scénarios non interactifs où les modèles se contentent de présenter les vêtements. Cette limite néglige un aspect crucial de la présentation vestimentaire dans le monde réel : l'interaction active entre l'humain et le vêtement. Pour combler cette lacune, nous introduisons et formalisons une nouvelle tâche ambitieuse : l'essayage virtuel vidéo interactif (VVT interactif), où les sujets de la vidéo interagissent activement avec leurs vêtements. Cette tâche pose des défis uniques qui dépassent la simple préservation des textures, notamment : (1) résoudre l'ambiguïté sémantique des interactions à partir des informations de pose standard, et (2) apprendre des déformations complexes du vêtement à partir de vidéos où les moments interactifs sont rares et brefs. Pour relever ces défis, nous proposons iTryOn, un nouveau cadre basé sur un Transformateur de diffusion vidéo à grande échelle. iTryOn introduit un mécanisme d'injection d'interaction multi-niveaux pour guider la génération de dynamiques complexes. Au niveau spatial, nous introduisons un a priori 3D de main indépendant du vêtement afin de fournir un guidage fin pour un contact précis main-vêtement, résolvant ainsi efficacement l'ambiguïté spatiale. Au niveau sémantique, iTryOn exploite des légendes globales pour le contexte général et des légendes d'actions horodatées pour les interactions localisées, synchronisées grâce à notre nouvel Embedding de Position Rotationnelle Sensible à l'Action (A-RoPE). Des expériences approfondies démontrent qu'iTryOn atteint non seulement des performances de pointe sur les bancs d'essai VVT traditionnels, mais établit également une avance décisive dans le nouveau cadre interactif, marquant une étape importante vers des expériences d'essayage virtuel plus dynamiques et contrôlables.

English

Video Virtual Try-On (VVT) aims to seamlessly replace a garment on a person in a video with a new one. While existing methods have made significant strides in maintaining temporal consistency, they are predominantly confined to non-interactive scenarios where models merely showcase garments. This limitation overlooks a crucial aspect of real-world apparel presentation: active human-garment interaction. To bridge this gap, we introduce and formalize a new challenging task: Interactive Video Virtual Try-On (Interactive VVT), where subjects in the video actively engage with their clothing. This task introduces unique challenges beyond simple texture preservation, including: (1) resolving the semantic ambiguity of interactions from standard pose information, and (2) learning complex garment deformations from video where interactive moments are sparse and brief. To address these challenges, we propose iTryOn, a novel framework built upon a large-scale video diffusion Transformer. iTryOn pioneers a multi-level interaction injection mechanism to guide the generation of complex dynamics. At the spatial level, we introduce a garment-agnostic 3D hand prior to provide fine-grained guidance for precise hand-garment contact, effectively resolving spatial ambiguity. At the semantic level, iTryOn leverages global captions for overall context and time-stamped action captions for localized interactions, synchronized via our novel Action-aware Rotational Position Embedding (A-RoPE). Extensive experiments demonstrate that iTryOn not only achieves state-of-the-art performance on traditional VVT benchmarks but also establishes a commanding lead in the new interactive setting, marking a significant step towards more dynamic and controllable virtual try-on experiences.