ChatPaper.aiChatPaper

iTryOn: Освоение интерактивной видео-виртуальной примерки с пространственно-семантическим руководством

iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance

May 20, 2026
Авторы: Jun Zheng, Zhengze Xu, Mengting Chen, Jing Wang, Jinsong Lan, Xiaoyong Zhu, Kaifu Zhang, Bo Zheng, Xiaodan Liang
cs.AI

Аннотация

Видео-виртуальная примерка (VVT) направлена на бесшовную замену предмета одежды на человеке в видео на новый. Хотя существующие методы достигли значительного прогресса в поддержании временной согласованности, они преимущественно ограничены неинтерактивными сценариями, где модели просто демонстрируют одежду. Это ограничение упускает из виду важнейший аспект реального представления одежды: активное взаимодействие человека с одеждой. Для преодоления этого разрыва мы представляем и формализуем новую сложную задачу: интерактивную видео-виртуальную примерку (Interactive VVT), где субъекты в видео активно взаимодействуют со своей одеждой. Эта задача вводит уникальные проблемы, выходящие за рамки простого сохранения текстуры, включая: (1) разрешение семантической неоднозначности взаимодействий на основе стандартной информации о позе и (2) изучение сложных деформаций одежды из видео, где интерактивные моменты редки и кратки. Для решения этих проблем мы предлагаем iTryOn — новую структуру, построенную на основе крупномасштабного диффузионного трансформера видео. iTryOn впервые использует многоуровневый механизм внедрения взаимодействия для управления генерацией сложной динамики. На пространственном уровне мы вводим независимый от одежды трехмерный приор руки, обеспечивающий детальное руководство для точного контакта руки с одеждой, что эффективно устраняет пространственную неоднозначность. На семантическом уровне iTryOn использует глобальные подписи для общего контекста и привязанные ко времени подписи действий для локализованных взаимодействий, синхронизируемые с помощью нашего нового позиционного вращательного внедрения с учетом действий (A-RoPE). Обширные эксперименты демонстрируют, что iTryOn не только достигает производительности на уровне передовых методов на традиционных эталонах VVT, но и устанавливает значительное преимущество в новой интерактивной среде, что знаменует собой важный шаг к более динамичным и управляемым виртуальным примеркам.
English
Video Virtual Try-On (VVT) aims to seamlessly replace a garment on a person in a video with a new one. While existing methods have made significant strides in maintaining temporal consistency, they are predominantly confined to non-interactive scenarios where models merely showcase garments. This limitation overlooks a crucial aspect of real-world apparel presentation: active human-garment interaction. To bridge this gap, we introduce and formalize a new challenging task: Interactive Video Virtual Try-On (Interactive VVT), where subjects in the video actively engage with their clothing. This task introduces unique challenges beyond simple texture preservation, including: (1) resolving the semantic ambiguity of interactions from standard pose information, and (2) learning complex garment deformations from video where interactive moments are sparse and brief. To address these challenges, we propose iTryOn, a novel framework built upon a large-scale video diffusion Transformer. iTryOn pioneers a multi-level interaction injection mechanism to guide the generation of complex dynamics. At the spatial level, we introduce a garment-agnostic 3D hand prior to provide fine-grained guidance for precise hand-garment contact, effectively resolving spatial ambiguity. At the semantic level, iTryOn leverages global captions for overall context and time-stamped action captions for localized interactions, synchronized via our novel Action-aware Rotational Position Embedding (A-RoPE). Extensive experiments demonstrate that iTryOn not only achieves state-of-the-art performance on traditional VVT benchmarks but also establishes a commanding lead in the new interactive setting, marking a significant step towards more dynamic and controllable virtual try-on experiences.