Heb je Proprioceptieve Staten nodig in Visuomotorische Beleidsregels?
Do You Need Proprioceptive States in Visuomotor Policies?
September 23, 2025
Auteurs: Juntu Zhao, Wenbo Lu, Di Zhang, Yufeng Liu, Yushen Liang, Tianluo Zhang, Yifeng Cao, Junyuan Xie, Yingdong Hu, Shengjie Wang, Junliang Guo, Dequan Wang, Yang Gao
cs.AI
Samenvatting
Imitation-learning-gebaseerde visuomotorische beleidsregels worden veel gebruikt in robotmanipulatie, waarbij zowel visuele waarnemingen als proprioceptieve toestanden doorgaans samen worden toegepast voor precieze controle. In deze studie ontdekken we echter dat deze gangbare praktijk het beleid te afhankelijk maakt van de proprioceptieve toestandsinvoer, wat leidt tot overfitting aan de trainingspaden en resulteert in slechte ruimtelijke generalisatie. Daarentegen stellen we het State-free Policy voor, waarbij de proprioceptieve toestandsinvoer wordt verwijderd en acties alleen worden voorspeld op basis van visuele waarnemingen. Het State-free Policy is opgebouwd in de relatieve actieruimte van de eindeffector en moet zorgen voor volledige taakrelevante visuele waarnemingen, hier geleverd door dubbele groothoek polscamera's. Empirische resultaten tonen aan dat het State-free Policy aanzienlijk betere ruimtelijke generalisatie bereikt dan het state-based policy: in real-world taken zoals pick-and-place, uitdagend hemd-opvouwen en complexe whole-body manipulatie, die meerdere robotconfiguraties omvatten, verbetert het gemiddelde slagingspercentage van 0\% naar 85\% in hoogtegeneralisatie en van 6\% naar 64\% in horizontale generalisatie. Bovendien tonen ze ook voordelen in data-efficiëntie en cross-embodiment-aanpassing, wat hun praktische bruikbaarheid voor real-world implementatie vergroot.
English
Imitation-learning-based visuomotor policies have been widely used in robot
manipulation, where both visual observations and proprioceptive states are
typically adopted together for precise control. However, in this study, we find
that this common practice makes the policy overly reliant on the proprioceptive
state input, which causes overfitting to the training trajectories and results
in poor spatial generalization. On the contrary, we propose the State-free
Policy, removing the proprioceptive state input and predicting actions only
conditioned on visual observations. The State-free Policy is built in the
relative end-effector action space, and should ensure the full task-relevant
visual observations, here provided by dual wide-angle wrist cameras. Empirical
results demonstrate that the State-free policy achieves significantly stronger
spatial generalization than the state-based policy: in real-world tasks such as
pick-and-place, challenging shirt-folding, and complex whole-body manipulation,
spanning multiple robot embodiments, the average success rate improves from 0\%
to 85\% in height generalization and from 6\% to 64\% in horizontal
generalization. Furthermore, they also show advantages in data efficiency and
cross-embodiment adaptation, enhancing their practicality for real-world
deployment.