Hai Bisogno di Stati Propriocettivi nelle Politiche Visuomotorie?

Abstract

Le politiche visuomotorie basate sull'apprendimento per imitazione sono ampiamente utilizzate nella manipolazione robotica, dove tipicamente vengono adottate insieme osservazioni visive e stati propriocettivi per un controllo preciso. Tuttavia, in questo studio, scopriamo che questa pratica comune rende la politica eccessivamente dipendente dall'input dello stato propriocettivo, causando un overfitting rispetto alle traiettorie di addestramento e portando a una scarsa generalizzazione spaziale. Al contrario, proponiamo la Politica senza Stato, rimuovendo l'input dello stato propriocettivo e prevedendo azioni condizionate solo sulle osservazioni visive. La Politica senza Stato è costruita nello spazio relativo delle azioni dell'effettore finale e dovrebbe garantire osservazioni visive complete e rilevanti per il compito, qui fornite da doppie telecamere grandangolari montate sul polso. I risultati empirici dimostrano che la Politica senza Stato raggiunge una generalizzazione spaziale significativamente più forte rispetto alla politica basata sullo stato: in compiti del mondo reale come il pick-and-place, la complessa piegatura di una camicia e la manipolazione complessa di tutto il corpo, che coinvolgono molteplici incarnazioni di robot, il tasso di successo medio migliora dallo 0\% all'85\% nella generalizzazione in altezza e dal 6\% al 64\% nella generalizzazione orizzontale. Inoltre, mostrano anche vantaggi in termini di efficienza dei dati e adattamento cross-incarnazione, migliorando la loro praticità per il dispiegamento nel mondo reale.

English

Imitation-learning-based visuomotor policies have been widely used in robot manipulation, where both visual observations and proprioceptive states are typically adopted together for precise control. However, in this study, we find that this common practice makes the policy overly reliant on the proprioceptive state input, which causes overfitting to the training trajectories and results in poor spatial generalization. On the contrary, we propose the State-free Policy, removing the proprioceptive state input and predicting actions only conditioned on visual observations. The State-free Policy is built in the relative end-effector action space, and should ensure the full task-relevant visual observations, here provided by dual wide-angle wrist cameras. Empirical results demonstrate that the State-free policy achieves significantly stronger spatial generalization than the state-based policy: in real-world tasks such as pick-and-place, challenging shirt-folding, and complex whole-body manipulation, spanning multiple robot embodiments, the average success rate improves from 0\% to 85\% in height generalization and from 6\% to 64\% in horizontal generalization. Furthermore, they also show advantages in data efficiency and cross-embodiment adaptation, enhancing their practicality for real-world deployment.

Hai Bisogno di Stati Propriocettivi nelle Politiche Visuomotorie?

Do You Need Proprioceptive States in Visuomotor Policies?

Abstract

Support