WristWorld: Erzeugung von Handgelenkansichten durch 4D-Weltmodelle für die robotische Manipulation
WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation
October 8, 2025
papers.authors: Zezhong Qian, Xiaowei Chi, Yuming Li, Shizun Wang, Zhiyuan Qin, Xiaozhu Ju, Sirui Han, Shanghang Zhang
cs.AI
papers.abstract
Handgelenkansichten sind entscheidend für VLA-Modelle, da sie feingranulare Hand-Objekt-Interaktionen erfassen, die die Manipulationsleistung direkt verbessern. Dennoch umfassen groß angelegte Datensätze selten solche Aufnahmen, was zu einer erheblichen Lücke zwischen reichlich vorhandenen Ankeransichten und knappen Handgelenkansichten führt. Bestehende Weltmodelle können diese Lücke nicht schließen, da sie einen ersten Frame in Handgelenkansicht benötigen und somit nicht in der Lage sind, Handgelenkansicht-Videos allein aus Ankeransichten zu generieren. Inmitten dieser Lücke tauchen neuere visuelle Geometriemodelle wie VGGT mit geometrischen und perspektivenübergreifenden Priors auf, die es ermöglichen, extreme Blickwinkelverschiebungen zu bewältigen. Inspiriert von diesen Erkenntnissen schlagen wir WristWorld vor, das erste 4D-Weltmodell, das Handgelenkansicht-Videos ausschließlich aus Ankeransichten generiert. WristWorld arbeitet in zwei Phasen: (i) Rekonstruktion, die VGGT erweitert und unseren Spatial Projection Consistency (SPC) Loss integriert, um geometrisch konsistente Handgelenkansicht-Posen und 4D-Punktwolken zu schätzen; (ii) Generierung, die unser Videogenerierungsmodell verwendet, um zeitlich kohärente Handgelenkansicht-Videos aus der rekonstruierten Perspektive zu synthetisieren. Experimente mit Droid, Calvin und Franka Panda demonstrieren eine state-of-the-art Videogenerierung mit überlegener räumlicher Konsistenz, während gleichzeitig die VLA-Leistung verbessert wird, was die durchschnittliche Aufgabenabschlusslänge bei Calvin um 3,81 % erhöht und 42,4 % der Lücke zwischen Anker- und Handgelenkansicht schließt.
English
Wrist-view observations are crucial for VLA models as they capture
fine-grained hand-object interactions that directly enhance manipulation
performance. Yet large-scale datasets rarely include such recordings, resulting
in a substantial gap between abundant anchor views and scarce wrist views.
Existing world models cannot bridge this gap, as they require a wrist-view
first frame and thus fail to generate wrist-view videos from anchor views
alone. Amid this gap, recent visual geometry models such as VGGT emerge with
geometric and cross-view priors that make it possible to address extreme
viewpoint shifts. Inspired by these insights, we propose WristWorld, the first
4D world model that generates wrist-view videos solely from anchor views.
WristWorld operates in two stages: (i) Reconstruction, which extends VGGT and
incorporates our Spatial Projection Consistency (SPC) Loss to estimate
geometrically consistent wrist-view poses and 4D point clouds; (ii) Generation,
which employs our video generation model to synthesize temporally coherent
wrist-view videos from the reconstructed perspective. Experiments on Droid,
Calvin, and Franka Panda demonstrate state-of-the-art video generation with
superior spatial consistency, while also improving VLA performance, raising the
average task completion length on Calvin by 3.81% and closing 42.4% of the
anchor-wrist view gap.