¿Necesitas estados propioceptivos en políticas visuomotoras?

Resumen

Las políticas visuomotoras basadas en aprendizaje por imitación han sido ampliamente utilizadas en la manipulación robótica, donde tanto las observaciones visuales como los estados propioceptivos se suelen adoptar conjuntamente para un control preciso. Sin embargo, en este estudio, encontramos que esta práctica común hace que la política dependa excesivamente de la entrada del estado propioceptivo, lo que provoca un sobreajuste a las trayectorias de entrenamiento y resulta en una pobre generalización espacial. Por el contrario, proponemos la Política Libre de Estado, eliminando la entrada del estado propioceptivo y prediciendo acciones únicamente condicionadas por las observaciones visuales. La Política Libre de Estado se construye en el espacio de acción relativa del efector final, y debe garantizar las observaciones visuales completas relevantes para la tarea, aquí proporcionadas por cámaras de ángulo ancho duales en la muñeca. Los resultados empíricos demuestran que la política libre de estado logra una generalización espacial significativamente más fuerte que la política basada en estado: en tareas del mundo real como recoger y colocar, el desafiante doblado de camisas y la manipulación compleja de todo el cuerpo, abarcando múltiples configuraciones robóticas, la tasa de éxito promedio mejora del 0\% al 85\% en la generalización de altura y del 6\% al 64\% en la generalización horizontal. Además, también muestran ventajas en la eficiencia de datos y la adaptación entre configuraciones, mejorando su practicidad para la implementación en el mundo real.

English

Imitation-learning-based visuomotor policies have been widely used in robot manipulation, where both visual observations and proprioceptive states are typically adopted together for precise control. However, in this study, we find that this common practice makes the policy overly reliant on the proprioceptive state input, which causes overfitting to the training trajectories and results in poor spatial generalization. On the contrary, we propose the State-free Policy, removing the proprioceptive state input and predicting actions only conditioned on visual observations. The State-free Policy is built in the relative end-effector action space, and should ensure the full task-relevant visual observations, here provided by dual wide-angle wrist cameras. Empirical results demonstrate that the State-free policy achieves significantly stronger spatial generalization than the state-based policy: in real-world tasks such as pick-and-place, challenging shirt-folding, and complex whole-body manipulation, spanning multiple robot embodiments, the average success rate improves from 0\% to 85\% in height generalization and from 6\% to 64\% in horizontal generalization. Furthermore, they also show advantages in data efficiency and cross-embodiment adaptation, enhancing their practicality for real-world deployment.

¿Necesitas estados propioceptivos en políticas visuomotoras?

Do You Need Proprioceptive States in Visuomotor Policies?

Resumen

Support