WristWorld: Generación de Vistas de Muñeca mediante Modelos Mundiales 4D para Manipulación Robótica
WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation
October 8, 2025
Autores: Zezhong Qian, Xiaowei Chi, Yuming Li, Shizun Wang, Zhiyuan Qin, Xiaozhu Ju, Sirui Han, Shanghang Zhang
cs.AI
Resumen
Las observaciones desde la perspectiva de la muñeca son cruciales para los modelos VLA, ya que capturan interacciones mano-objeto de gran detalle que mejoran directamente el rendimiento en tareas de manipulación. Sin embargo, los conjuntos de datos a gran escala rara vez incluyen este tipo de grabaciones, lo que genera una brecha significativa entre las abundantes vistas de anclaje y las escasas vistas de muñeca. Los modelos de mundo existentes no pueden cerrar esta brecha, ya que requieren un fotograma inicial desde la vista de muñeca y, por lo tanto, no pueden generar videos desde esta perspectiva utilizando únicamente las vistas de anclaje. En este contexto, modelos recientes de geometría visual como VGGT han surgido con conocimientos geométricos y prioridades entre vistas que permiten abordar cambios extremos de perspectiva. Inspirados por estos avances, proponemos WristWorld, el primer modelo de mundo 4D que genera videos desde la vista de la muñeca utilizando únicamente las vistas de anclaje. WristWorld opera en dos etapas: (i) Reconstrucción, que extiende VGGT e incorpora nuestra Pérdida de Consistencia de Proyección Espacial (SPC) para estimar poses geométricamente consistentes desde la vista de la muñeca y nubes de puntos 4D; (ii) Generación, que emplea nuestro modelo de generación de videos para sintetizar videos temporalmente coherentes desde la perspectiva reconstruida. Los experimentos en Droid, Calvin y Franka Panda demuestran una generación de videos de vanguardia con una consistencia espacial superior, además de mejorar el rendimiento de los modelos VLA, aumentando la longitud promedio de finalización de tareas en Calvin en un 3.81% y cerrando el 42.4% de la brecha entre las vistas de anclaje y muñeca.
English
Wrist-view observations are crucial for VLA models as they capture
fine-grained hand-object interactions that directly enhance manipulation
performance. Yet large-scale datasets rarely include such recordings, resulting
in a substantial gap between abundant anchor views and scarce wrist views.
Existing world models cannot bridge this gap, as they require a wrist-view
first frame and thus fail to generate wrist-view videos from anchor views
alone. Amid this gap, recent visual geometry models such as VGGT emerge with
geometric and cross-view priors that make it possible to address extreme
viewpoint shifts. Inspired by these insights, we propose WristWorld, the first
4D world model that generates wrist-view videos solely from anchor views.
WristWorld operates in two stages: (i) Reconstruction, which extends VGGT and
incorporates our Spatial Projection Consistency (SPC) Loss to estimate
geometrically consistent wrist-view poses and 4D point clouds; (ii) Generation,
which employs our video generation model to synthesize temporally coherent
wrist-view videos from the reconstructed perspective. Experiments on Droid,
Calvin, and Franka Panda demonstrate state-of-the-art video generation with
superior spatial consistency, while also improving VLA performance, raising the
average task completion length on Calvin by 3.81% and closing 42.4% of the
anchor-wrist view gap.