ChatPaper.aiChatPaper

WristWorld: 4Dワールドモデルによるロボット操作のための手首視点生成

WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation

October 8, 2025
著者: Zezhong Qian, Xiaowei Chi, Yuming Li, Shizun Wang, Zhiyuan Qin, Xiaozhu Ju, Sirui Han, Shanghang Zhang
cs.AI

要旨

手首視点の観測は、VLAモデルにとって極めて重要であり、操作性能を直接向上させる微細な手と物体の相互作用を捉える。しかし、大規模データセットにはそのような記録がほとんど含まれておらず、豊富なアンカービューと希少な手首ビューの間に大きなギャップが生じている。既存の世界モデルは、手首ビューの最初のフレームを必要とするため、アンカービューのみから手首ビューの動画を生成することができず、このギャップを埋めることができない。このギャップの中で、VGGTなどの最近の視覚幾何モデルは、極端な視点の変化に対処することを可能にする幾何学的およびクロスビューの事前知識を備えて登場している。これらの知見に触発され、我々はアンカービューのみから手首ビューの動画を生成する初の4D世界モデルであるWristWorldを提案する。WristWorldは2段階で動作する:(i) 再構築段階では、VGGTを拡張し、幾何学的に一貫した手首ビューのポーズと4D点群を推定するために我々の空間投影一貫性(SPC)損失を組み込む;(ii) 生成段階では、再構築された視点から時間的に一貫した手首ビューの動画を合成するために我々の動画生成モデルを採用する。Droid、Calvin、およびFranka Pandaでの実験により、優れた空間的一貫性を備えた最先端の動画生成が実証され、VLAの性能も向上し、Calvinでの平均タスク完了長が3.81%向上し、アンカーと手首ビューのギャップの42.4%が埋められた。
English
Wrist-view observations are crucial for VLA models as they capture fine-grained hand-object interactions that directly enhance manipulation performance. Yet large-scale datasets rarely include such recordings, resulting in a substantial gap between abundant anchor views and scarce wrist views. Existing world models cannot bridge this gap, as they require a wrist-view first frame and thus fail to generate wrist-view videos from anchor views alone. Amid this gap, recent visual geometry models such as VGGT emerge with geometric and cross-view priors that make it possible to address extreme viewpoint shifts. Inspired by these insights, we propose WristWorld, the first 4D world model that generates wrist-view videos solely from anchor views. WristWorld operates in two stages: (i) Reconstruction, which extends VGGT and incorporates our Spatial Projection Consistency (SPC) Loss to estimate geometrically consistent wrist-view poses and 4D point clouds; (ii) Generation, which employs our video generation model to synthesize temporally coherent wrist-view videos from the reconstructed perspective. Experiments on Droid, Calvin, and Franka Panda demonstrate state-of-the-art video generation with superior spatial consistency, while also improving VLA performance, raising the average task completion length on Calvin by 3.81% and closing 42.4% of the anchor-wrist view gap.
PDF52October 9, 2025