ChatPaper.aiChatPaper

TryOnCrafter: Раскрытие траекторий камеры для реалистичной видео-виртуальной примерки через рендерируемый 4D прокси-объект для примерки

TryOnCrafter: Unleashing Camera Trajectories for Realistic Video Virtual Try-on via a Renderable 4D Try-on Proxy

June 24, 2026
Авторы: Hao Sun, Hao Yan, Mengting Chen, Quanjian Song, Yu Li, Juan Cao, Jinsong Lan, Xiaoyong Zhu, Bo Zheng, Sheng Tang
cs.AI

Аннотация

Хотя виртуальная примерка видео (Video Virtual Try-on, VVT) достигла значительных успехов в синтезе реалистичных наложений одежды на динамических субъектах, существующие парадигмы по-прежнему принципиально ограничены пассивной зависимостью от исходных траекторий камеры, не обеспечивая необходимой интерактивной свободы для исследования всесторонних ракурсов. Для преодоления этого ограничения мы определяем новаторскую исследовательскую границу: управляемая камерой виртуальная примерка видео (Camera-controllable Video Virtual Try-on, CaM-VVT). В отличие от обычной VVT, CaM-VVT требует не только не зависящей от ракурса текстурной галлюцинации, но и строгой структурной синхронизации между нежесткой динамикой человека и фоновым контекстом при произвольных, неограниченных движениях камеры. Для решения этих задач мы представляем TryOnCrafter — первый унифицированный фреймворк на основе DiT, специально разработанный для задачи CaM-VVT. Отходя от неявных манипуляций в пиксельном пространстве, мы вводим Renderable 4D Try-on Proxy, который явно отделяет субъект-человека от окружения. Это достигается путем дистилляции априорных знаний высококачественной 2D-примерки в одетый аватар на основе 3DGS, который затем анимируется посредством последовательностей SMPL-X и метрически выравнивается в реконструированное облако точек фона. Этот прокси создает прочную структурную основу с превосходной плотностью текстуры и целостностью движения. Наш Video DiT с привязкой к прокси (Proxy-Anchored Video DiT) использует эту прочную структурную основу в качестве первичного геометрического якоря, гарантируя, что синтезированные фотореалистичные видео строго ограничены заданными траекториями и физически правдоподобными деформациями. Благодаря присущей 4D-прокси редактируемости, TryOnCrafter обеспечивает разнообразные прикладные применения, включая перелокализацию человека, эффекты «пули времени» и орбитальный обзор на 360 градусов.
English
While Video Virtual Try-on (VVT) has achieved remarkable progress in synthesizing realistic garment overlays on dynamic subjects, existing paradigms remains fundamentally constrained by a passive dependency on source camera trajectories, failing to accommodate the requisite interactive freedom for omnidirectional viewpoint exploration. To address this limitation, we define a pioneering research frontier: Camera-controllable Video Virtual Try-on (CaM-VVT). Unlike conventional VVT, CaM-VVT not only necessitates viewpoint-agnostic texture hallucination but also strict structural synchronization between non-rigid human dynamics and background contexts under arbitrary, unconstrained camera movements. To tackle these challenges, we present TryOnCrafter, the first unified DiT-based framework specifically architected for the CaM-VVT task. Departing from implicit pixel-space manipulation, we introduce a Renderable 4D Try-on Proxy that explicitly decouples the human subject from the environment. This is achieved by distilling high-fidelity 2D try-on priors into a clothed 3DGS-based avatar, which is subsequently animated via SMPL-X sequences and metric-aligned into a reconstructed background point cloud. This proxy establishes a robust structural foundation with superior texture density and motion integrity. Our Proxy-Anchored Video DiT leverages this robust structural foundation as a primary geometric anchor, ensuring that the synthesized photorealistic videos are strictly constrained by prescribed trajectories and physically plausible deformations. Benefiting from the inherent editability of the 4D proxy, TryOnCrafter facilitates diverse downstream applications, including human relocalization, ``bullet time'' effects, and 360-degree orbital viewing.