ChatPaper.aiChatPaper

WristWorld: Erzeugung von Handgelenkansichten durch 4D-Weltmodelle für die robotische Manipulation

WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation

October 8, 2025
papers.authors: Zezhong Qian, Xiaowei Chi, Yuming Li, Shizun Wang, Zhiyuan Qin, Xiaozhu Ju, Sirui Han, Shanghang Zhang
cs.AI

papers.abstract

Handgelenkansichten sind entscheidend für VLA-Modelle, da sie feingranulare Hand-Objekt-Interaktionen erfassen, die die Manipulationsleistung direkt verbessern. Dennoch umfassen groß angelegte Datensätze selten solche Aufnahmen, was zu einer erheblichen Lücke zwischen reichlich vorhandenen Ankeransichten und knappen Handgelenkansichten führt. Bestehende Weltmodelle können diese Lücke nicht schließen, da sie einen ersten Frame in Handgelenkansicht benötigen und somit nicht in der Lage sind, Handgelenkansicht-Videos allein aus Ankeransichten zu generieren. Inmitten dieser Lücke tauchen neuere visuelle Geometriemodelle wie VGGT mit geometrischen und perspektivenübergreifenden Priors auf, die es ermöglichen, extreme Blickwinkelverschiebungen zu bewältigen. Inspiriert von diesen Erkenntnissen schlagen wir WristWorld vor, das erste 4D-Weltmodell, das Handgelenkansicht-Videos ausschließlich aus Ankeransichten generiert. WristWorld arbeitet in zwei Phasen: (i) Rekonstruktion, die VGGT erweitert und unseren Spatial Projection Consistency (SPC) Loss integriert, um geometrisch konsistente Handgelenkansicht-Posen und 4D-Punktwolken zu schätzen; (ii) Generierung, die unser Videogenerierungsmodell verwendet, um zeitlich kohärente Handgelenkansicht-Videos aus der rekonstruierten Perspektive zu synthetisieren. Experimente mit Droid, Calvin und Franka Panda demonstrieren eine state-of-the-art Videogenerierung mit überlegener räumlicher Konsistenz, während gleichzeitig die VLA-Leistung verbessert wird, was die durchschnittliche Aufgabenabschlusslänge bei Calvin um 3,81 % erhöht und 42,4 % der Lücke zwischen Anker- und Handgelenkansicht schließt.
English
Wrist-view observations are crucial for VLA models as they capture fine-grained hand-object interactions that directly enhance manipulation performance. Yet large-scale datasets rarely include such recordings, resulting in a substantial gap between abundant anchor views and scarce wrist views. Existing world models cannot bridge this gap, as they require a wrist-view first frame and thus fail to generate wrist-view videos from anchor views alone. Amid this gap, recent visual geometry models such as VGGT emerge with geometric and cross-view priors that make it possible to address extreme viewpoint shifts. Inspired by these insights, we propose WristWorld, the first 4D world model that generates wrist-view videos solely from anchor views. WristWorld operates in two stages: (i) Reconstruction, which extends VGGT and incorporates our Spatial Projection Consistency (SPC) Loss to estimate geometrically consistent wrist-view poses and 4D point clouds; (ii) Generation, which employs our video generation model to synthesize temporally coherent wrist-view videos from the reconstructed perspective. Experiments on Droid, Calvin, and Franka Panda demonstrate state-of-the-art video generation with superior spatial consistency, while also improving VLA performance, raising the average task completion length on Calvin by 3.81% and closing 42.4% of the anchor-wrist view gap.
PDF52October 9, 2025