WristWorld : Génération de vues du poignet via des modèles du monde 4D pour la manipulation robotique
WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation
October 8, 2025
papers.authors: Zezhong Qian, Xiaowei Chi, Yuming Li, Shizun Wang, Zhiyuan Qin, Xiaozhu Ju, Sirui Han, Shanghang Zhang
cs.AI
papers.abstract
Les observations en vue poignet sont cruciales pour les modèles VLA, car elles capturent des interactions main-objet fines qui améliorent directement les performances de manipulation. Cependant, les jeux de données à grande échelle incluent rarement de tels enregistrements, ce qui crée un écart important entre les vues d'ancrage abondantes et les vues poignet rares. Les modèles de monde existants ne peuvent pas combler cet écart, car ils nécessitent une première image en vue poignet et échouent ainsi à générer des vidéos en vue poignet à partir des seules vues d'ancrage. Face à cet écart, des modèles récents de géométrie visuelle, tels que VGGT, émergent avec des a priori géométriques et inter-vues qui permettent de traiter les changements extrêmes de point de vue. Inspirés par ces idées, nous proposons WristWorld, le premier modèle de monde 4D qui génère des vidéos en vue poignet uniquement à partir des vues d'ancrage. WristWorld fonctionne en deux étapes : (i) Reconstruction, qui étend VGGT et intègre notre perte de cohérence de projection spatiale (SPC) pour estimer des poses en vue poignet géométriquement cohérentes et des nuages de points 4D ; (ii) Génération, qui utilise notre modèle de génération de vidéos pour synthétiser des vidéos en vue poignet temporellement cohérentes à partir de la perspective reconstruite. Les expériences sur Droid, Calvin et Franka Panda démontrent une génération de vidéos de pointe avec une cohérence spatiale supérieure, tout en améliorant les performances VLA, augmentant la longueur moyenne de réalisation des tâches sur Calvin de 3,81 % et comblant 42,4 % de l'écart entre les vues d'ancrage et poignet.
English
Wrist-view observations are crucial for VLA models as they capture
fine-grained hand-object interactions that directly enhance manipulation
performance. Yet large-scale datasets rarely include such recordings, resulting
in a substantial gap between abundant anchor views and scarce wrist views.
Existing world models cannot bridge this gap, as they require a wrist-view
first frame and thus fail to generate wrist-view videos from anchor views
alone. Amid this gap, recent visual geometry models such as VGGT emerge with
geometric and cross-view priors that make it possible to address extreme
viewpoint shifts. Inspired by these insights, we propose WristWorld, the first
4D world model that generates wrist-view videos solely from anchor views.
WristWorld operates in two stages: (i) Reconstruction, which extends VGGT and
incorporates our Spatial Projection Consistency (SPC) Loss to estimate
geometrically consistent wrist-view poses and 4D point clouds; (ii) Generation,
which employs our video generation model to synthesize temporally coherent
wrist-view videos from the reconstructed perspective. Experiments on Droid,
Calvin, and Franka Panda demonstrate state-of-the-art video generation with
superior spatial consistency, while also improving VLA performance, raising the
average task completion length on Calvin by 3.81% and closing 42.4% of the
anchor-wrist view gap.