ChatPaper.aiChatPaper

WristWorld: Gerando Visões do Pulso por meio de Modelos de Mundo 4D para Manipulação Robótica

WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation

October 8, 2025
Autores: Zezhong Qian, Xiaowei Chi, Yuming Li, Shizun Wang, Zhiyuan Qin, Xiaozhu Ju, Sirui Han, Shanghang Zhang
cs.AI

Resumo

Observações da perspectiva do pulso são cruciais para modelos VLA, pois capturam interações mão-objeto de alta granularidade que melhoram diretamente o desempenho de manipulação. No entanto, conjuntos de dados em grande escala raramente incluem tais gravações, resultando em uma lacuna significativa entre as abundantes visões âncora e as escassas visões do pulso. Modelos de mundo existentes não conseguem preencher essa lacuna, pois exigem um primeiro quadro da visão do pulso e, portanto, falham em gerar vídeos da visão do pulso apenas a partir de visões âncora. Diante dessa lacuna, modelos recentes de geometria visual, como o VGGT, surgem com prioridades geométricas e de visão cruzada que possibilitam abordar mudanças extremas de perspectiva. Inspirados por essas ideias, propomos o WristWorld, o primeiro modelo de mundo 4D que gera vídeos da visão do pulso exclusivamente a partir de visões âncora. O WristWorld opera em duas etapas: (i) Reconstrução, que estende o VGGT e incorpora nossa Perda de Consistência de Projeção Espacial (SPC) para estimar poses da visão do pulso e nuvens de pontos 4D geometricamente consistentes; (ii) Geração, que emprega nosso modelo de geração de vídeo para sintetizar vídeos da visão do pulso temporalmente coerentes a partir da perspectiva reconstruída. Experimentos no Droid, Calvin e Franka Panda demonstram geração de vídeo de última geração com consistência espacial superior, enquanto também melhoram o desempenho do VLA, aumentando o comprimento médio de conclusão de tarefas no Calvin em 3,81% e fechando 42,4% da lacuna entre as visões âncora e do pulso.
English
Wrist-view observations are crucial for VLA models as they capture fine-grained hand-object interactions that directly enhance manipulation performance. Yet large-scale datasets rarely include such recordings, resulting in a substantial gap between abundant anchor views and scarce wrist views. Existing world models cannot bridge this gap, as they require a wrist-view first frame and thus fail to generate wrist-view videos from anchor views alone. Amid this gap, recent visual geometry models such as VGGT emerge with geometric and cross-view priors that make it possible to address extreme viewpoint shifts. Inspired by these insights, we propose WristWorld, the first 4D world model that generates wrist-view videos solely from anchor views. WristWorld operates in two stages: (i) Reconstruction, which extends VGGT and incorporates our Spatial Projection Consistency (SPC) Loss to estimate geometrically consistent wrist-view poses and 4D point clouds; (ii) Generation, which employs our video generation model to synthesize temporally coherent wrist-view videos from the reconstructed perspective. Experiments on Droid, Calvin, and Franka Panda demonstrate state-of-the-art video generation with superior spatial consistency, while also improving VLA performance, raising the average task completion length on Calvin by 3.81% and closing 42.4% of the anchor-wrist view gap.
PDF62October 9, 2025