WristWorld : Génération de vues du poignet via des modèles du monde 4D pour la manipulation robotique

papers.abstract

Les observations en vue poignet sont cruciales pour les modèles VLA, car elles capturent des interactions main-objet fines qui améliorent directement les performances de manipulation. Cependant, les jeux de données à grande échelle incluent rarement de tels enregistrements, ce qui crée un écart important entre les vues d'ancrage abondantes et les vues poignet rares. Les modèles de monde existants ne peuvent pas combler cet écart, car ils nécessitent une première image en vue poignet et échouent ainsi à générer des vidéos en vue poignet à partir des seules vues d'ancrage. Face à cet écart, des modèles récents de géométrie visuelle, tels que VGGT, émergent avec des a priori géométriques et inter-vues qui permettent de traiter les changements extrêmes de point de vue. Inspirés par ces idées, nous proposons WristWorld, le premier modèle de monde 4D qui génère des vidéos en vue poignet uniquement à partir des vues d'ancrage. WristWorld fonctionne en deux étapes : (i) Reconstruction, qui étend VGGT et intègre notre perte de cohérence de projection spatiale (SPC) pour estimer des poses en vue poignet géométriquement cohérentes et des nuages de points 4D ; (ii) Génération, qui utilise notre modèle de génération de vidéos pour synthétiser des vidéos en vue poignet temporellement cohérentes à partir de la perspective reconstruite. Les expériences sur Droid, Calvin et Franka Panda démontrent une génération de vidéos de pointe avec une cohérence spatiale supérieure, tout en améliorant les performances VLA, augmentant la longueur moyenne de réalisation des tâches sur Calvin de 3,81 % et comblant 42,4 % de l'écart entre les vues d'ancrage et poignet.

English

Wrist-view observations are crucial for VLA models as they capture fine-grained hand-object interactions that directly enhance manipulation performance. Yet large-scale datasets rarely include such recordings, resulting in a substantial gap between abundant anchor views and scarce wrist views. Existing world models cannot bridge this gap, as they require a wrist-view first frame and thus fail to generate wrist-view videos from anchor views alone. Amid this gap, recent visual geometry models such as VGGT emerge with geometric and cross-view priors that make it possible to address extreme viewpoint shifts. Inspired by these insights, we propose WristWorld, the first 4D world model that generates wrist-view videos solely from anchor views. WristWorld operates in two stages: (i) Reconstruction, which extends VGGT and incorporates our Spatial Projection Consistency (SPC) Loss to estimate geometrically consistent wrist-view poses and 4D point clouds; (ii) Generation, which employs our video generation model to synthesize temporally coherent wrist-view videos from the reconstructed perspective. Experiments on Droid, Calvin, and Franka Panda demonstrate state-of-the-art video generation with superior spatial consistency, while also improving VLA performance, raising the average task completion length on Calvin by 3.81% and closing 42.4% of the anchor-wrist view gap.

WristWorld : Génération de vues du poignet via des modèles du monde 4D pour la manipulation robotique

WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation

papers.abstract

Support