Hai Bisogno di Stati Propriocettivi nelle Politiche Visuomotorie?
Do You Need Proprioceptive States in Visuomotor Policies?
September 23, 2025
Autori: Juntu Zhao, Wenbo Lu, Di Zhang, Yufeng Liu, Yushen Liang, Tianluo Zhang, Yifeng Cao, Junyuan Xie, Yingdong Hu, Shengjie Wang, Junliang Guo, Dequan Wang, Yang Gao
cs.AI
Abstract
Le politiche visuomotorie basate sull'apprendimento per imitazione sono ampiamente utilizzate nella manipolazione robotica, dove tipicamente vengono adottate insieme osservazioni visive e stati propriocettivi per un controllo preciso. Tuttavia, in questo studio, scopriamo che questa pratica comune rende la politica eccessivamente dipendente dall'input dello stato propriocettivo, causando un overfitting rispetto alle traiettorie di addestramento e portando a una scarsa generalizzazione spaziale. Al contrario, proponiamo la Politica senza Stato, rimuovendo l'input dello stato propriocettivo e prevedendo azioni condizionate solo sulle osservazioni visive. La Politica senza Stato è costruita nello spazio relativo delle azioni dell'effettore finale e dovrebbe garantire osservazioni visive complete e rilevanti per il compito, qui fornite da doppie telecamere grandangolari montate sul polso. I risultati empirici dimostrano che la Politica senza Stato raggiunge una generalizzazione spaziale significativamente più forte rispetto alla politica basata sullo stato: in compiti del mondo reale come il pick-and-place, la complessa piegatura di una camicia e la manipolazione complessa di tutto il corpo, che coinvolgono molteplici incarnazioni di robot, il tasso di successo medio migliora dallo 0\% all'85\% nella generalizzazione in altezza e dal 6\% al 64\% nella generalizzazione orizzontale. Inoltre, mostrano anche vantaggi in termini di efficienza dei dati e adattamento cross-incarnazione, migliorando la loro praticità per il dispiegamento nel mondo reale.
English
Imitation-learning-based visuomotor policies have been widely used in robot
manipulation, where both visual observations and proprioceptive states are
typically adopted together for precise control. However, in this study, we find
that this common practice makes the policy overly reliant on the proprioceptive
state input, which causes overfitting to the training trajectories and results
in poor spatial generalization. On the contrary, we propose the State-free
Policy, removing the proprioceptive state input and predicting actions only
conditioned on visual observations. The State-free Policy is built in the
relative end-effector action space, and should ensure the full task-relevant
visual observations, here provided by dual wide-angle wrist cameras. Empirical
results demonstrate that the State-free policy achieves significantly stronger
spatial generalization than the state-based policy: in real-world tasks such as
pick-and-place, challenging shirt-folding, and complex whole-body manipulation,
spanning multiple robot embodiments, the average success rate improves from 0\%
to 85\% in height generalization and from 6\% to 64\% in horizontal
generalization. Furthermore, they also show advantages in data efficiency and
cross-embodiment adaptation, enhancing their practicality for real-world
deployment.