視覚運動ポリシーに固有感覚状態は必要か?
Do You Need Proprioceptive States in Visuomotor Policies?
September 23, 2025
著者: Juntu Zhao, Wenbo Lu, Di Zhang, Yufeng Liu, Yushen Liang, Tianluo Zhang, Yifeng Cao, Junyuan Xie, Yingdong Hu, Shengjie Wang, Junliang Guo, Dequan Wang, Yang Gao
cs.AI
要旨
模倣学習に基づく視覚運動ポリシーは、ロボット操作において広く使用されており、精密な制御のために視覚観測と固有受容状態が通常併用されています。しかし、本研究では、この一般的な手法がポリシーを固有受容状態入力に過度に依存させ、訓練軌跡への過剰適合を引き起こし、空間的汎化性能が低下することを明らかにしました。これに対し、我々は固有受容状態入力を除去し、視覚観測のみに基づいて行動を予測する「ステートフリーポリシー」を提案します。ステートフリーポリシーは相対的なエンドエフェクタ動作空間で構築され、デュアル広角リストカメラによって提供されるタスク関連の完全な視覚観測を確保する必要があります。実証結果は、ステートフリーポリシーが状態ベースのポリシーよりも大幅に優れた空間的汎化性能を達成することを示しています:ピックアンドプレース、挑戦的なシャツ折りたたみ、複雑な全身操作といった現実世界のタスクにおいて、複数のロボット実装にわたって、高さ方向の汎化では平均成功率が0%から85%に、水平方向の汎化では6%から64%に向上しました。さらに、データ効率性とクロスエンボディメント適応性においても優位性を示し、現実世界での実用性が高まっています。
English
Imitation-learning-based visuomotor policies have been widely used in robot
manipulation, where both visual observations and proprioceptive states are
typically adopted together for precise control. However, in this study, we find
that this common practice makes the policy overly reliant on the proprioceptive
state input, which causes overfitting to the training trajectories and results
in poor spatial generalization. On the contrary, we propose the State-free
Policy, removing the proprioceptive state input and predicting actions only
conditioned on visual observations. The State-free Policy is built in the
relative end-effector action space, and should ensure the full task-relevant
visual observations, here provided by dual wide-angle wrist cameras. Empirical
results demonstrate that the State-free policy achieves significantly stronger
spatial generalization than the state-based policy: in real-world tasks such as
pick-and-place, challenging shirt-folding, and complex whole-body manipulation,
spanning multiple robot embodiments, the average success rate improves from 0\%
to 85\% in height generalization and from 6\% to 64\% in horizontal
generalization. Furthermore, they also show advantages in data efficiency and
cross-embodiment adaptation, enhancing their practicality for real-world
deployment.