TryOnCrafter: het benutten van cameratrajecten voor realistisch virtueel passen in video via een renderbare 4D-pasproxy
TryOnCrafter: Unleashing Camera Trajectories for Realistic Video Virtual Try-on via a Renderable 4D Try-on Proxy
June 24, 2026
Auteurs: Hao Sun, Hao Yan, Mengting Chen, Quanjian Song, Yu Li, Juan Cao, Jinsong Lan, Xiaoyong Zhu, Bo Zheng, Sheng Tang
cs.AI
Samenvatting
Hoewel Video Virtueel Passen (VVT) opmerkelijke vooruitgang heeft geboekt in het synthetiseren van realistische kledingoverlays op dynamische personen, blijven bestaande paradigma's fundamenteel beperkt door een passieve afhankelijkheid van broncameratrajecten, die niet voldoen aan de vereiste interactieve vrijheid voor omnidirectionele gezichtspuntexploratie. Om deze beperking aan te pakken, definiëren we een grensverleggend onderzoeksfrontier: Camera-gestuurde Video Virtueel Passen (CaM-VVT). In tegenstelling tot conventionele VVT vereist CaM-VVT niet alleen gezichtspunt-agnostische texturenhallucinatie, maar ook strikte structurele synchronisatie tussen niet-starre menselijke dynamiek en achtergrondcontexten onder willekeurige, onbeperkte camerabewegingen. Om deze uitdagingen aan te gaan, presenteren we TryOnCrafter, het eerste uniforme DiT-gebaseerde raamwerk dat specifiek is ontworpen voor de CaM-VVT-taak. Afwijkend van impliciete pixelruimte-manipulatie introduceren we een weergavebare 4D Pas-proxy die het menselijke subject expliciet loskoppelt van de omgeving. Dit wordt bereikt door hifi 2D-pas-prioriteiten te destilleren in een geklede 3DGS-gebaseerde avatar, die vervolgens wordt geanimeerd via SMPL-X-reeksen en metrische uitlijning in een gereconstrueerde achtergrondpuntenwolk. Deze proxy legt een robuuste structurele basis met superieure textuurdichtheid en bewegingsintegriteit. Onze Proxy-verankerde Video DiT gebruikt deze robuuste structurele basis als een primair geometrisch anker, waardoor wordt verzekerd dat de gesynthetiseerde fotorealistische video's strikt worden beperkt door voorgeschreven trajecten en fysiek plausibele vervormingen. Profiterend van de inherente bewerkbaarheid van de 4D-proxy, faciliteert TryOnCrafter diverse downstream-toepassingen, waaronder herlokalisatie van de mens, 'bullet time'-effecten en 360-graden orbitale weergave.
English
While Video Virtual Try-on (VVT) has achieved remarkable progress in synthesizing realistic garment overlays on dynamic subjects, existing paradigms remains fundamentally constrained by a passive dependency on source camera trajectories, failing to accommodate the requisite interactive freedom for omnidirectional viewpoint exploration. To address this limitation, we define a pioneering research frontier: Camera-controllable Video Virtual Try-on (CaM-VVT). Unlike conventional VVT, CaM-VVT not only necessitates viewpoint-agnostic texture hallucination but also strict structural synchronization between non-rigid human dynamics and background contexts under arbitrary, unconstrained camera movements. To tackle these challenges, we present TryOnCrafter, the first unified DiT-based framework specifically architected for the CaM-VVT task. Departing from implicit pixel-space manipulation, we introduce a Renderable 4D Try-on Proxy that explicitly decouples the human subject from the environment. This is achieved by distilling high-fidelity 2D try-on priors into a clothed 3DGS-based avatar, which is subsequently animated via SMPL-X sequences and metric-aligned into a reconstructed background point cloud. This proxy establishes a robust structural foundation with superior texture density and motion integrity. Our Proxy-Anchored Video DiT leverages this robust structural foundation as a primary geometric anchor, ensuring that the synthesized photorealistic videos are strictly constrained by prescribed trajectories and physically plausible deformations. Benefiting from the inherent editability of the 4D proxy, TryOnCrafter facilitates diverse downstream applications, including human relocalization, ``bullet time'' effects, and 360-degree orbital viewing.