WristWorld: Генерация изображений с перспективы запястья с помощью 4D-моделей мира для роботизированного манипулирования

Аннотация

Наблюдения с точки зрения запястья имеют решающее значение для моделей VLA, так как они фиксируют детализированные взаимодействия руки с объектами, что напрямую улучшает производительность манипуляций. Однако крупномасштабные наборы данных редко включают такие записи, что приводит к значительному разрыву между обилием опорных видов и скудностью видов с запястья. Существующие мировые модели не могут устранить этот разрыв, поскольку они требуют начального кадра с вида запястья и, следовательно, не способны генерировать видео с запястья только на основе опорных видов. В условиях этого разрыва появляются недавние модели визуальной геометрии, такие как VGGT, которые обладают геометрическими и кросс-видовыми априорными знаниями, что делает возможным решение задач с экстремальными сдвигами точек зрения. Вдохновленные этими идеями, мы предлагаем WristWorld — первую 4D мировую модель, которая генерирует видео с запястья исключительно на основе опорных видов. WristWorld работает в два этапа: (i) Реконструкция, которая расширяет VGGT и включает наш Spatial Projection Consistency (SPC) Loss для оценки геометрически согласованных поз с запястья и 4D облаков точек; (ii) Генерация, которая использует нашу модель генерации видео для синтеза временно согласованных видео с запястья на основе восстановленной перспективы. Эксперименты на наборах данных Droid, Calvin и Franka Panda демонстрируют передовые результаты в генерации видео с превосходной пространственной согласованностью, а также улучшают производительность VLA, увеличивая среднюю длину выполнения задач на Calvin на 3.81% и сокращая разрыв между опорными видами и видами с запястья на 42.4%.

English

Wrist-view observations are crucial for VLA models as they capture fine-grained hand-object interactions that directly enhance manipulation performance. Yet large-scale datasets rarely include such recordings, resulting in a substantial gap between abundant anchor views and scarce wrist views. Existing world models cannot bridge this gap, as they require a wrist-view first frame and thus fail to generate wrist-view videos from anchor views alone. Amid this gap, recent visual geometry models such as VGGT emerge with geometric and cross-view priors that make it possible to address extreme viewpoint shifts. Inspired by these insights, we propose WristWorld, the first 4D world model that generates wrist-view videos solely from anchor views. WristWorld operates in two stages: (i) Reconstruction, which extends VGGT and incorporates our Spatial Projection Consistency (SPC) Loss to estimate geometrically consistent wrist-view poses and 4D point clouds; (ii) Generation, which employs our video generation model to synthesize temporally coherent wrist-view videos from the reconstructed perspective. Experiments on Droid, Calvin, and Franka Panda demonstrate state-of-the-art video generation with superior spatial consistency, while also improving VLA performance, raising the average task completion length on Calvin by 3.81% and closing 42.4% of the anchor-wrist view gap.

WristWorld: Генерация изображений с перспективы запястья с помощью 4D-моделей мира для роботизированного манипулирования

WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation

Аннотация

Support