WristWorld: Generación de Vistas de Muñeca mediante Modelos Mundiales 4D para Manipulación Robótica

Resumen

Las observaciones desde la perspectiva de la muñeca son cruciales para los modelos VLA, ya que capturan interacciones mano-objeto de gran detalle que mejoran directamente el rendimiento en tareas de manipulación. Sin embargo, los conjuntos de datos a gran escala rara vez incluyen este tipo de grabaciones, lo que genera una brecha significativa entre las abundantes vistas de anclaje y las escasas vistas de muñeca. Los modelos de mundo existentes no pueden cerrar esta brecha, ya que requieren un fotograma inicial desde la vista de muñeca y, por lo tanto, no pueden generar videos desde esta perspectiva utilizando únicamente las vistas de anclaje. En este contexto, modelos recientes de geometría visual como VGGT han surgido con conocimientos geométricos y prioridades entre vistas que permiten abordar cambios extremos de perspectiva. Inspirados por estos avances, proponemos WristWorld, el primer modelo de mundo 4D que genera videos desde la vista de la muñeca utilizando únicamente las vistas de anclaje. WristWorld opera en dos etapas: (i) Reconstrucción, que extiende VGGT e incorpora nuestra Pérdida de Consistencia de Proyección Espacial (SPC) para estimar poses geométricamente consistentes desde la vista de la muñeca y nubes de puntos 4D; (ii) Generación, que emplea nuestro modelo de generación de videos para sintetizar videos temporalmente coherentes desde la perspectiva reconstruida. Los experimentos en Droid, Calvin y Franka Panda demuestran una generación de videos de vanguardia con una consistencia espacial superior, además de mejorar el rendimiento de los modelos VLA, aumentando la longitud promedio de finalización de tareas en Calvin en un 3.81% y cerrando el 42.4% de la brecha entre las vistas de anclaje y muñeca.

English

Wrist-view observations are crucial for VLA models as they capture fine-grained hand-object interactions that directly enhance manipulation performance. Yet large-scale datasets rarely include such recordings, resulting in a substantial gap between abundant anchor views and scarce wrist views. Existing world models cannot bridge this gap, as they require a wrist-view first frame and thus fail to generate wrist-view videos from anchor views alone. Amid this gap, recent visual geometry models such as VGGT emerge with geometric and cross-view priors that make it possible to address extreme viewpoint shifts. Inspired by these insights, we propose WristWorld, the first 4D world model that generates wrist-view videos solely from anchor views. WristWorld operates in two stages: (i) Reconstruction, which extends VGGT and incorporates our Spatial Projection Consistency (SPC) Loss to estimate geometrically consistent wrist-view poses and 4D point clouds; (ii) Generation, which employs our video generation model to synthesize temporally coherent wrist-view videos from the reconstructed perspective. Experiments on Droid, Calvin, and Franka Panda demonstrate state-of-the-art video generation with superior spatial consistency, while also improving VLA performance, raising the average task completion length on Calvin by 3.81% and closing 42.4% of the anchor-wrist view gap.

WristWorld: Generación de Vistas de Muñeca mediante Modelos Mundiales 4D para Manipulación Robótica

WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation

Resumen

Support