WristWorld: Generazione di Visualizzazioni dal Polso tramite Modelli Mondiali 4D per la Manipolazione Robotica
WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation
October 8, 2025
Autori: Zezhong Qian, Xiaowei Chi, Yuming Li, Shizun Wang, Zhiyuan Qin, Xiaozhu Ju, Sirui Han, Shanghang Zhang
cs.AI
Abstract
Le osservazioni dalla prospettiva del polso sono cruciali per i modelli VLA, poiché catturano interazioni mano-oggetto ad alta granularità che migliorano direttamente le prestazioni di manipolazione. Tuttavia, i dataset su larga scala raramente includono tali registrazioni, creando un divario significativo tra le abbondanti viste di ancoraggio e le scarse viste dal polso. I modelli mondiali esistenti non possono colmare questo divario, poiché richiedono un fotogramma iniziale dalla vista del polso e quindi non riescono a generare video dalla vista del polso partendo esclusivamente dalle viste di ancoraggio. In questo contesto, recenti modelli di geometria visiva come VGGT emergono con prior geometrici e inter-vista che rendono possibile affrontare cambiamenti estremi di prospettiva. Ispirati da queste intuizioni, proponiamo WristWorld, il primo modello mondiale 4D che genera video dalla vista del polso esclusivamente a partire dalle viste di ancoraggio. WristWorld opera in due fasi: (i) Ricostruzione, che estende VGGT e incorpora la nostra Spatial Projection Consistency (SPC) Loss per stimare pose dalla vista del polso geometricamente consistenti e nuvole di punti 4D; (ii) Generazione, che utilizza il nostro modello di generazione video per sintetizzare video dalla vista del polso temporalmente coerenti dalla prospettiva ricostruita. Esperimenti su Droid, Calvin e Franka Panda dimostrano una generazione video all'avanguardia con una superiore coerenza spaziale, migliorando anche le prestazioni VLA, aumentando la lunghezza media di completamento dei task su Calvin del 3,81% e colmando il 42,4% del divario tra le viste di ancoraggio e del polso.
English
Wrist-view observations are crucial for VLA models as they capture
fine-grained hand-object interactions that directly enhance manipulation
performance. Yet large-scale datasets rarely include such recordings, resulting
in a substantial gap between abundant anchor views and scarce wrist views.
Existing world models cannot bridge this gap, as they require a wrist-view
first frame and thus fail to generate wrist-view videos from anchor views
alone. Amid this gap, recent visual geometry models such as VGGT emerge with
geometric and cross-view priors that make it possible to address extreme
viewpoint shifts. Inspired by these insights, we propose WristWorld, the first
4D world model that generates wrist-view videos solely from anchor views.
WristWorld operates in two stages: (i) Reconstruction, which extends VGGT and
incorporates our Spatial Projection Consistency (SPC) Loss to estimate
geometrically consistent wrist-view poses and 4D point clouds; (ii) Generation,
which employs our video generation model to synthesize temporally coherent
wrist-view videos from the reconstructed perspective. Experiments on Droid,
Calvin, and Franka Panda demonstrate state-of-the-art video generation with
superior spatial consistency, while also improving VLA performance, raising the
average task completion length on Calvin by 3.81% and closing 42.4% of the
anchor-wrist view gap.