WristWorld: 로봇 조작을 위한 4D 세계 모델을 통한 손목 시점 생성
WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation
October 8, 2025
저자: Zezhong Qian, Xiaowei Chi, Yuming Li, Shizun Wang, Zhiyuan Qin, Xiaozhu Ju, Sirui Han, Shanghang Zhang
cs.AI
초록
손목 시점 관찰은 VLA 모델에 있어 핵심적인 요소로, 세밀한 손-물체 상호작용을 포착하여 조작 성능을 직접적으로 향상시킵니다. 그러나 대규모 데이터셋은 이러한 기록을 거의 포함하지 않아, 풍부한 앵커 시점과 희소한 손목 시점 간에 상당한 격차가 존재합니다. 기존의 세계 모델은 이 격차를 해결할 수 없는데, 이는 손목 시점의 첫 프레임을 요구하기 때문에 앵커 시점만으로 손목 시점 비디오를 생성하는 데 실패하기 때문입니다. 이러한 격차 속에서, VGGT와 같은 최신 시각 기하학 모델은 기하학적 및 교차 시점 사전 지식을 통해 극단적인 시점 변화를 해결할 가능성을 제시합니다. 이러한 통찰에 영감을 받아, 우리는 앵커 시점만으로 손목 시점 비디오를 생성하는 최초의 4D 세계 모델인 WristWorld를 제안합니다. WristWorld는 두 단계로 작동합니다: (i) 재구성 단계에서는 VGGT를 확장하고 우리의 공간 투영 일관성(SPC) 손실을 통합하여 기하학적으로 일관된 손목 시점 포즈와 4D 포인트 클라우드를 추정합니다; (ii) 생성 단계에서는 재구성된 시점에서 시간적으로 일관된 손목 시점 비디오를 합성하기 위해 우리의 비디오 생성 모델을 사용합니다. Droid, Calvin, Franka Panda에 대한 실험은 우수한 공간 일관성을 갖춘 최첨단 비디오 생성을 보여주며, VLA 성능도 향상시켜 Calvin에서 평균 작업 완료 길이를 3.81% 증가시키고 앵커-손목 시점 격차의 42.4%를 해소합니다.
English
Wrist-view observations are crucial for VLA models as they capture
fine-grained hand-object interactions that directly enhance manipulation
performance. Yet large-scale datasets rarely include such recordings, resulting
in a substantial gap between abundant anchor views and scarce wrist views.
Existing world models cannot bridge this gap, as they require a wrist-view
first frame and thus fail to generate wrist-view videos from anchor views
alone. Amid this gap, recent visual geometry models such as VGGT emerge with
geometric and cross-view priors that make it possible to address extreme
viewpoint shifts. Inspired by these insights, we propose WristWorld, the first
4D world model that generates wrist-view videos solely from anchor views.
WristWorld operates in two stages: (i) Reconstruction, which extends VGGT and
incorporates our Spatial Projection Consistency (SPC) Loss to estimate
geometrically consistent wrist-view poses and 4D point clouds; (ii) Generation,
which employs our video generation model to synthesize temporally coherent
wrist-view videos from the reconstructed perspective. Experiments on Droid,
Calvin, and Franka Panda demonstrate state-of-the-art video generation with
superior spatial consistency, while also improving VLA performance, raising the
average task completion length on Calvin by 3.81% and closing 42.4% of the
anchor-wrist view gap.