WristWorld: Het genereren van polsbeelden via 4D-wereldmodellen voor robotmanipulatie
WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation
October 8, 2025
Auteurs: Zezhong Qian, Xiaowei Chi, Yuming Li, Shizun Wang, Zhiyuan Qin, Xiaozhu Ju, Sirui Han, Shanghang Zhang
cs.AI
Samenvatting
Polsgezichtsobservaties zijn cruciaal voor VLA-modellen omdat ze fijnmazige hand-objectinteracties vastleggen die de manipulatieprestaties direct verbeteren. Toch bevatten grootschalige datasets zelden dergelijke opnames, wat resulteert in een aanzienlijke kloof tussen overvloedige ankergezichten en schaarse polsgezichten. Bestaande wereldmodellen kunnen deze kloof niet overbruggen, omdat ze een eerste frame vanuit polsgezicht vereisen en dus geen polsgezichtsvideo's kunnen genereren op basis van alleen ankergezichten. Tegen deze achtergrond duiken recente visuele geometriemodellen zoals VGGT op met geometrische en kruisgezichtspriors die het mogelijk maken extreme gezichtspuntenverschuivingen aan te pakken. Geïnspireerd door deze inzichten stellen we WristWorld voor, het eerste 4D-wereldmodel dat polsgezichtsvideo's genereert uitsluitend vanuit ankergezichten. WristWorld werkt in twee fasen: (i) Reconstructie, dat VGGT uitbreidt en onze Spatial Projection Consistency (SPC) Loss integreert om geometrisch consistente polsgezichtsposities en 4D-puntwolken te schatten; (ii) Generatie, dat ons videogeneratiemodel gebruikt om temporeel coherente polsgezichtsvideo's te synthetiseren vanuit het gereconstrueerde perspectief. Experimenten op Droid, Calvin en Franka Panda demonstreren state-of-the-art videogeneratie met superieure ruimtelijke consistentie, terwijl ook de VLA-prestaties worden verbeterd, met een verhoging van de gemiddelde taakvoltooiingslengte op Calvin met 3,81% en het dichten van 42,4% van de anker-polsgezichtskloof.
English
Wrist-view observations are crucial for VLA models as they capture
fine-grained hand-object interactions that directly enhance manipulation
performance. Yet large-scale datasets rarely include such recordings, resulting
in a substantial gap between abundant anchor views and scarce wrist views.
Existing world models cannot bridge this gap, as they require a wrist-view
first frame and thus fail to generate wrist-view videos from anchor views
alone. Amid this gap, recent visual geometry models such as VGGT emerge with
geometric and cross-view priors that make it possible to address extreme
viewpoint shifts. Inspired by these insights, we propose WristWorld, the first
4D world model that generates wrist-view videos solely from anchor views.
WristWorld operates in two stages: (i) Reconstruction, which extends VGGT and
incorporates our Spatial Projection Consistency (SPC) Loss to estimate
geometrically consistent wrist-view poses and 4D point clouds; (ii) Generation,
which employs our video generation model to synthesize temporally coherent
wrist-view videos from the reconstructed perspective. Experiments on Droid,
Calvin, and Franka Panda demonstrate state-of-the-art video generation with
superior spatial consistency, while also improving VLA performance, raising the
average task completion length on Calvin by 3.81% and closing 42.4% of the
anchor-wrist view gap.