Avez-vous besoin d'états proprioceptifs dans les politiques visuomotrices ?
Do You Need Proprioceptive States in Visuomotor Policies?
September 23, 2025
papers.authors: Juntu Zhao, Wenbo Lu, Di Zhang, Yufeng Liu, Yushen Liang, Tianluo Zhang, Yifeng Cao, Junyuan Xie, Yingdong Hu, Shengjie Wang, Junliang Guo, Dequan Wang, Yang Gao
cs.AI
papers.abstract
Les politiques visuomotrices basées sur l'apprentissage par imitation sont largement utilisées dans la manipulation robotique, où les observations visuelles et les états proprioceptifs sont généralement adoptés conjointement pour un contrôle précis. Cependant, dans cette étude, nous constatons que cette pratique courante rend la politique trop dépendante de l'entrée de l'état proprioceptif, ce qui entraîne un surajustement aux trajectoires d'entraînement et une mauvaise généralisation spatiale. Au contraire, nous proposons la Politique Sans État, en supprimant l'entrée de l'état proprioceptif et en prédisant les actions uniquement conditionnées par les observations visuelles. La Politique Sans État est construite dans l'espace d'action relatif de l'effecteur terminal, et doit garantir les observations visuelles complètes pertinentes pour la tâche, ici fournies par des caméras grand angle doubles montées sur le poignet. Les résultats empiriques démontrent que la Politique Sans État atteint une généralisation spatiale significativement plus forte que la politique basée sur l'état : dans des tâches du monde réel telles que le pick-and-place, le pliage de chemises difficile et la manipulation complexe du corps entier, couvrant plusieurs incarnations de robots, le taux de réussite moyen passe de 0\% à 85\% dans la généralisation en hauteur et de 6\% à 64\% dans la généralisation horizontale. De plus, elles montrent également des avantages en termes d'efficacité des données et d'adaptation trans-embodiment, renforçant ainsi leur praticabilité pour un déploiement dans le monde réel.
English
Imitation-learning-based visuomotor policies have been widely used in robot
manipulation, where both visual observations and proprioceptive states are
typically adopted together for precise control. However, in this study, we find
that this common practice makes the policy overly reliant on the proprioceptive
state input, which causes overfitting to the training trajectories and results
in poor spatial generalization. On the contrary, we propose the State-free
Policy, removing the proprioceptive state input and predicting actions only
conditioned on visual observations. The State-free Policy is built in the
relative end-effector action space, and should ensure the full task-relevant
visual observations, here provided by dual wide-angle wrist cameras. Empirical
results demonstrate that the State-free policy achieves significantly stronger
spatial generalization than the state-based policy: in real-world tasks such as
pick-and-place, challenging shirt-folding, and complex whole-body manipulation,
spanning multiple robot embodiments, the average success rate improves from 0\%
to 85\% in height generalization and from 6\% to 64\% in horizontal
generalization. Furthermore, they also show advantages in data efficiency and
cross-embodiment adaptation, enhancing their practicality for real-world
deployment.