WristWorld: Generazione di Visualizzazioni dal Polso tramite Modelli Mondiali 4D per la Manipolazione Robotica

Abstract

Le osservazioni dalla prospettiva del polso sono cruciali per i modelli VLA, poiché catturano interazioni mano-oggetto ad alta granularità che migliorano direttamente le prestazioni di manipolazione. Tuttavia, i dataset su larga scala raramente includono tali registrazioni, creando un divario significativo tra le abbondanti viste di ancoraggio e le scarse viste dal polso. I modelli mondiali esistenti non possono colmare questo divario, poiché richiedono un fotogramma iniziale dalla vista del polso e quindi non riescono a generare video dalla vista del polso partendo esclusivamente dalle viste di ancoraggio. In questo contesto, recenti modelli di geometria visiva come VGGT emergono con prior geometrici e inter-vista che rendono possibile affrontare cambiamenti estremi di prospettiva. Ispirati da queste intuizioni, proponiamo WristWorld, il primo modello mondiale 4D che genera video dalla vista del polso esclusivamente a partire dalle viste di ancoraggio. WristWorld opera in due fasi: (i) Ricostruzione, che estende VGGT e incorpora la nostra Spatial Projection Consistency (SPC) Loss per stimare pose dalla vista del polso geometricamente consistenti e nuvole di punti 4D; (ii) Generazione, che utilizza il nostro modello di generazione video per sintetizzare video dalla vista del polso temporalmente coerenti dalla prospettiva ricostruita. Esperimenti su Droid, Calvin e Franka Panda dimostrano una generazione video all'avanguardia con una superiore coerenza spaziale, migliorando anche le prestazioni VLA, aumentando la lunghezza media di completamento dei task su Calvin del 3,81% e colmando il 42,4% del divario tra le viste di ancoraggio e del polso.

English

Wrist-view observations are crucial for VLA models as they capture fine-grained hand-object interactions that directly enhance manipulation performance. Yet large-scale datasets rarely include such recordings, resulting in a substantial gap between abundant anchor views and scarce wrist views. Existing world models cannot bridge this gap, as they require a wrist-view first frame and thus fail to generate wrist-view videos from anchor views alone. Amid this gap, recent visual geometry models such as VGGT emerge with geometric and cross-view priors that make it possible to address extreme viewpoint shifts. Inspired by these insights, we propose WristWorld, the first 4D world model that generates wrist-view videos solely from anchor views. WristWorld operates in two stages: (i) Reconstruction, which extends VGGT and incorporates our Spatial Projection Consistency (SPC) Loss to estimate geometrically consistent wrist-view poses and 4D point clouds; (ii) Generation, which employs our video generation model to synthesize temporally coherent wrist-view videos from the reconstructed perspective. Experiments on Droid, Calvin, and Franka Panda demonstrate state-of-the-art video generation with superior spatial consistency, while also improving VLA performance, raising the average task completion length on Calvin by 3.81% and closing 42.4% of the anchor-wrist view gap.

WristWorld: Generazione di Visualizzazioni dal Polso tramite Modelli Mondiali 4D per la Manipolazione Robotica

WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation

Abstract

Support