WristWorld: Het genereren van polsbeelden via 4D-wereldmodellen voor robotmanipulatie

Samenvatting

Polsgezichtsobservaties zijn cruciaal voor VLA-modellen omdat ze fijnmazige hand-objectinteracties vastleggen die de manipulatieprestaties direct verbeteren. Toch bevatten grootschalige datasets zelden dergelijke opnames, wat resulteert in een aanzienlijke kloof tussen overvloedige ankergezichten en schaarse polsgezichten. Bestaande wereldmodellen kunnen deze kloof niet overbruggen, omdat ze een eerste frame vanuit polsgezicht vereisen en dus geen polsgezichtsvideo's kunnen genereren op basis van alleen ankergezichten. Tegen deze achtergrond duiken recente visuele geometriemodellen zoals VGGT op met geometrische en kruisgezichtspriors die het mogelijk maken extreme gezichtspuntenverschuivingen aan te pakken. Geïnspireerd door deze inzichten stellen we WristWorld voor, het eerste 4D-wereldmodel dat polsgezichtsvideo's genereert uitsluitend vanuit ankergezichten. WristWorld werkt in twee fasen: (i) Reconstructie, dat VGGT uitbreidt en onze Spatial Projection Consistency (SPC) Loss integreert om geometrisch consistente polsgezichtsposities en 4D-puntwolken te schatten; (ii) Generatie, dat ons videogeneratiemodel gebruikt om temporeel coherente polsgezichtsvideo's te synthetiseren vanuit het gereconstrueerde perspectief. Experimenten op Droid, Calvin en Franka Panda demonstreren state-of-the-art videogeneratie met superieure ruimtelijke consistentie, terwijl ook de VLA-prestaties worden verbeterd, met een verhoging van de gemiddelde taakvoltooiingslengte op Calvin met 3,81% en het dichten van 42,4% van de anker-polsgezichtskloof.

English

Wrist-view observations are crucial for VLA models as they capture fine-grained hand-object interactions that directly enhance manipulation performance. Yet large-scale datasets rarely include such recordings, resulting in a substantial gap between abundant anchor views and scarce wrist views. Existing world models cannot bridge this gap, as they require a wrist-view first frame and thus fail to generate wrist-view videos from anchor views alone. Amid this gap, recent visual geometry models such as VGGT emerge with geometric and cross-view priors that make it possible to address extreme viewpoint shifts. Inspired by these insights, we propose WristWorld, the first 4D world model that generates wrist-view videos solely from anchor views. WristWorld operates in two stages: (i) Reconstruction, which extends VGGT and incorporates our Spatial Projection Consistency (SPC) Loss to estimate geometrically consistent wrist-view poses and 4D point clouds; (ii) Generation, which employs our video generation model to synthesize temporally coherent wrist-view videos from the reconstructed perspective. Experiments on Droid, Calvin, and Franka Panda demonstrate state-of-the-art video generation with superior spatial consistency, while also improving VLA performance, raising the average task completion length on Calvin by 3.81% and closing 42.4% of the anchor-wrist view gap.

WristWorld: Het genereren van polsbeelden via 4D-wereldmodellen voor robotmanipulatie

WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation

Samenvatting

Support