¿Necesitas estados propioceptivos en políticas visuomotoras?
Do You Need Proprioceptive States in Visuomotor Policies?
September 23, 2025
Autores: Juntu Zhao, Wenbo Lu, Di Zhang, Yufeng Liu, Yushen Liang, Tianluo Zhang, Yifeng Cao, Junyuan Xie, Yingdong Hu, Shengjie Wang, Junliang Guo, Dequan Wang, Yang Gao
cs.AI
Resumen
Las políticas visuomotoras basadas en aprendizaje por imitación han sido ampliamente utilizadas en la manipulación robótica, donde tanto las observaciones visuales como los estados propioceptivos se suelen adoptar conjuntamente para un control preciso. Sin embargo, en este estudio, encontramos que esta práctica común hace que la política dependa excesivamente de la entrada del estado propioceptivo, lo que provoca un sobreajuste a las trayectorias de entrenamiento y resulta en una pobre generalización espacial. Por el contrario, proponemos la Política Libre de Estado, eliminando la entrada del estado propioceptivo y prediciendo acciones únicamente condicionadas por las observaciones visuales. La Política Libre de Estado se construye en el espacio de acción relativa del efector final, y debe garantizar las observaciones visuales completas relevantes para la tarea, aquí proporcionadas por cámaras de ángulo ancho duales en la muñeca. Los resultados empíricos demuestran que la política libre de estado logra una generalización espacial significativamente más fuerte que la política basada en estado: en tareas del mundo real como recoger y colocar, el desafiante doblado de camisas y la manipulación compleja de todo el cuerpo, abarcando múltiples configuraciones robóticas, la tasa de éxito promedio mejora del 0\% al 85\% en la generalización de altura y del 6\% al 64\% en la generalización horizontal. Además, también muestran ventajas en la eficiencia de datos y la adaptación entre configuraciones, mejorando su practicidad para la implementación en el mundo real.
English
Imitation-learning-based visuomotor policies have been widely used in robot
manipulation, where both visual observations and proprioceptive states are
typically adopted together for precise control. However, in this study, we find
that this common practice makes the policy overly reliant on the proprioceptive
state input, which causes overfitting to the training trajectories and results
in poor spatial generalization. On the contrary, we propose the State-free
Policy, removing the proprioceptive state input and predicting actions only
conditioned on visual observations. The State-free Policy is built in the
relative end-effector action space, and should ensure the full task-relevant
visual observations, here provided by dual wide-angle wrist cameras. Empirical
results demonstrate that the State-free policy achieves significantly stronger
spatial generalization than the state-based policy: in real-world tasks such as
pick-and-place, challenging shirt-folding, and complex whole-body manipulation,
spanning multiple robot embodiments, the average success rate improves from 0\%
to 85\% in height generalization and from 6\% to 64\% in horizontal
generalization. Furthermore, they also show advantages in data efficiency and
cross-embodiment adaptation, enhancing their practicality for real-world
deployment.