WristWorld: Генерация изображений с перспективы запястья с помощью 4D-моделей мира для роботизированного манипулирования
WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation
October 8, 2025
Авторы: Zezhong Qian, Xiaowei Chi, Yuming Li, Shizun Wang, Zhiyuan Qin, Xiaozhu Ju, Sirui Han, Shanghang Zhang
cs.AI
Аннотация
Наблюдения с точки зрения запястья имеют решающее значение для моделей VLA, так как они фиксируют детализированные взаимодействия руки с объектами, что напрямую улучшает производительность манипуляций. Однако крупномасштабные наборы данных редко включают такие записи, что приводит к значительному разрыву между обилием опорных видов и скудностью видов с запястья. Существующие мировые модели не могут устранить этот разрыв, поскольку они требуют начального кадра с вида запястья и, следовательно, не способны генерировать видео с запястья только на основе опорных видов. В условиях этого разрыва появляются недавние модели визуальной геометрии, такие как VGGT, которые обладают геометрическими и кросс-видовыми априорными знаниями, что делает возможным решение задач с экстремальными сдвигами точек зрения. Вдохновленные этими идеями, мы предлагаем WristWorld — первую 4D мировую модель, которая генерирует видео с запястья исключительно на основе опорных видов. WristWorld работает в два этапа: (i) Реконструкция, которая расширяет VGGT и включает наш Spatial Projection Consistency (SPC) Loss для оценки геометрически согласованных поз с запястья и 4D облаков точек; (ii) Генерация, которая использует нашу модель генерации видео для синтеза временно согласованных видео с запястья на основе восстановленной перспективы. Эксперименты на наборах данных Droid, Calvin и Franka Panda демонстрируют передовые результаты в генерации видео с превосходной пространственной согласованностью, а также улучшают производительность VLA, увеличивая среднюю длину выполнения задач на Calvin на 3.81% и сокращая разрыв между опорными видами и видами с запястья на 42.4%.
English
Wrist-view observations are crucial for VLA models as they capture
fine-grained hand-object interactions that directly enhance manipulation
performance. Yet large-scale datasets rarely include such recordings, resulting
in a substantial gap between abundant anchor views and scarce wrist views.
Existing world models cannot bridge this gap, as they require a wrist-view
first frame and thus fail to generate wrist-view videos from anchor views
alone. Amid this gap, recent visual geometry models such as VGGT emerge with
geometric and cross-view priors that make it possible to address extreme
viewpoint shifts. Inspired by these insights, we propose WristWorld, the first
4D world model that generates wrist-view videos solely from anchor views.
WristWorld operates in two stages: (i) Reconstruction, which extends VGGT and
incorporates our Spatial Projection Consistency (SPC) Loss to estimate
geometrically consistent wrist-view poses and 4D point clouds; (ii) Generation,
which employs our video generation model to synthesize temporally coherent
wrist-view videos from the reconstructed perspective. Experiments on Droid,
Calvin, and Franka Panda demonstrate state-of-the-art video generation with
superior spatial consistency, while also improving VLA performance, raising the
average task completion length on Calvin by 3.81% and closing 42.4% of the
anchor-wrist view gap.