TryOnCrafter: 렌더링 가능한 4D 착용 프록시를 통한 현실적인 비디오 가상 착용을 위한 카메라 궤적 활용
TryOnCrafter: Unleashing Camera Trajectories for Realistic Video Virtual Try-on via a Renderable 4D Try-on Proxy
June 24, 2026
저자: Hao Sun, Hao Yan, Mengting Chen, Quanjian Song, Yu Li, Juan Cao, Jinsong Lan, Xiaoyong Zhu, Bo Zheng, Sheng Tang
cs.AI
초록
비디오 가상 피팅(VVT)은 동적인 대상 위에 사실적인 의상 오버레이를 합성하는 데 있어 놀라운 진전을 이루었지만, 기존 패러다임은 소스 카메라 궤적에 대한 수동적 의존성에 의해 근본적으로 제약되어 전방향 시점 탐색에 필요한 상호작용적 자유도를 수용하지 못하고 있다. 이러한 한계를 해결하기 위해 우리는 선구적인 연구 프론티어를 정의한다: 카메라 제어 가능 비디오 가상 피팅(CaM-VVT). 기존 VVT와 달리 CaM-VVT는 시점에 구애받지 않는 텍스처 환영(halucination)뿐만 아니라, 임의의 제약 없는 카메라 움직임 하에서 비강체 인간 역학과 배경 맥락 간의 엄격한 구조적 동기화를 요구한다. 이러한 과제에 대응하기 위해 우리는 CaM-VVT 작업을 위해 특별히 설계된 최초의 통합 DiT 기반 프레임워크인 TryOnCrafter를 제시한다. 암시적 픽셀 공간 조작에서 벗어나, 우리는 인간 대상을 환경으로부터 명시적으로 분리하는 렌더링 가능한 4D 피팅 프록시를 도입한다. 이는 고충실도 2D 피팅 사전 정보를 SMPL-X 시퀀스를 통해 애니메이션화되고 재구성된 배경 포인트 클라우드로 메트릭 정렬되는 의류를 입힌 3DGS 기반 아바타로 증류함으로써 달성된다. 이 프록시는 우수한 텍스처 밀도와 움직임 무결성을 갖춘 견고한 구조적 기반을 확립한다. 우리의 프록시 기반 비디오 DiT는 이 견고한 구조적 기반을 주요 기하학적 앵커로 활용하여, 합성된 사실적인 비디오가 규정된 궤적과 물리적으로 타당한 변형에 의해 엄격히 제약되도록 보장한다. 4D 프록시의 내재된 편집 가능성 덕분에 TryOnCrafter는 인간 재위치 설정, "불릿 타임" 효과, 360도 궤도 시청을 포함한 다양한 하위 응용을 가능하게 한다.
English
While Video Virtual Try-on (VVT) has achieved remarkable progress in synthesizing realistic garment overlays on dynamic subjects, existing paradigms remains fundamentally constrained by a passive dependency on source camera trajectories, failing to accommodate the requisite interactive freedom for omnidirectional viewpoint exploration. To address this limitation, we define a pioneering research frontier: Camera-controllable Video Virtual Try-on (CaM-VVT). Unlike conventional VVT, CaM-VVT not only necessitates viewpoint-agnostic texture hallucination but also strict structural synchronization between non-rigid human dynamics and background contexts under arbitrary, unconstrained camera movements. To tackle these challenges, we present TryOnCrafter, the first unified DiT-based framework specifically architected for the CaM-VVT task. Departing from implicit pixel-space manipulation, we introduce a Renderable 4D Try-on Proxy that explicitly decouples the human subject from the environment. This is achieved by distilling high-fidelity 2D try-on priors into a clothed 3DGS-based avatar, which is subsequently animated via SMPL-X sequences and metric-aligned into a reconstructed background point cloud. This proxy establishes a robust structural foundation with superior texture density and motion integrity. Our Proxy-Anchored Video DiT leverages this robust structural foundation as a primary geometric anchor, ensuring that the synthesized photorealistic videos are strictly constrained by prescribed trajectories and physically plausible deformations. Benefiting from the inherent editability of the 4D proxy, TryOnCrafter facilitates diverse downstream applications, including human relocalization, ``bullet time'' effects, and 360-degree orbital viewing.