iTryOn: Meistern des interaktiven Video-Virtual-Try-Ons mit räumlich-semantischer Führung

Zusammenfassung

Video Virtual Try-On (VVT) zielt darauf ab, ein Kleidungsstück auf einer Person in einem Video nahtlos durch ein neues zu ersetzen. Während bestehende Methoden bedeutende Fortschritte bei der Wahrung der zeitlichen Konsistenz erzielt haben, sind sie vorwiegend auf nicht-interaktive Szenarien beschränkt, in denen Modelle lediglich Kleidungsstücke präsentieren. Diese Einschränkung übersieht einen entscheidenden Aspekt der Kleidungspräsentation in der realen Welt: die aktive Mensch-Kleidungs-Interaktion. Um diese Lücke zu schließen, führen wir eine neue anspruchsvolle Aufgabe ein und formalisieren sie: Interactive Video Virtual Try-On (Interactive VVT), bei dem die Personen im Video aktiv mit ihrer Kleidung interagieren. Diese Aufgabe bringt besondere Herausforderungen mit sich, die über die bloße Texturerhaltung hinausgehen, darunter: (1) die Auflösung der semantischen Mehrdeutigkeit von Interaktionen aus Standard-Positionsinformationen und (2) das Erlernen komplexer Kleidungsdeformationen aus Videos, in denen interaktive Momente spärlich und kurz sind. Um diese Herausforderungen zu bewältigen, schlagen wir iTryOn vor, ein neuartiges Framework, das auf einem groß angelegten Video-Diffusion-Transformer basiert. iTryOn führt einen mehrstufigen Interaktions-Injektionsmechanismus ein, um die Erzeugung komplexer Dynamiken zu steuern. Auf räumlicher Ebene führen wir einen bekleidungsunabhängigen 3D-Hand-Prior ein, der eine feinkörnige Führung für präzisen Hand-Kleidungs-Kontakt bietet und so räumliche Mehrdeutigkeiten effektiv auflöst. Auf semantischer Ebene nutzt iTryOn globale Bildunterschriften für den Gesamtkontext und zeitgestempelte Aktionsbeschreibungen für lokalisierte Interaktionen, synchronisiert durch unsere neuartige aktionsbewusste rotatorische Positionscodierung (A-RoPE). Umfangreiche Experimente zeigen, dass iTryOn nicht nur auf herkömmlichen VVT-Benchmarks Spitzenleistungen erzielt, sondern auch in der neuen interaktiven Umgebung eine überragende Führungsposition einnimmt, was einen bedeutenden Schritt hin zu dynamischeren und steuerbareren virtuellen Anprobeerlebnissen darstellt.

English

Video Virtual Try-On (VVT) aims to seamlessly replace a garment on a person in a video with a new one. While existing methods have made significant strides in maintaining temporal consistency, they are predominantly confined to non-interactive scenarios where models merely showcase garments. This limitation overlooks a crucial aspect of real-world apparel presentation: active human-garment interaction. To bridge this gap, we introduce and formalize a new challenging task: Interactive Video Virtual Try-On (Interactive VVT), where subjects in the video actively engage with their clothing. This task introduces unique challenges beyond simple texture preservation, including: (1) resolving the semantic ambiguity of interactions from standard pose information, and (2) learning complex garment deformations from video where interactive moments are sparse and brief. To address these challenges, we propose iTryOn, a novel framework built upon a large-scale video diffusion Transformer. iTryOn pioneers a multi-level interaction injection mechanism to guide the generation of complex dynamics. At the spatial level, we introduce a garment-agnostic 3D hand prior to provide fine-grained guidance for precise hand-garment contact, effectively resolving spatial ambiguity. At the semantic level, iTryOn leverages global captions for overall context and time-stamped action captions for localized interactions, synchronized via our novel Action-aware Rotational Position Embedding (A-RoPE). Extensive experiments demonstrate that iTryOn not only achieves state-of-the-art performance on traditional VVT benchmarks but also establishes a commanding lead in the new interactive setting, marking a significant step towards more dynamic and controllable virtual try-on experiences.