Benötigen Sie propriozeptive Zustände in visuomotorischen Policies?
Do You Need Proprioceptive States in Visuomotor Policies?
September 23, 2025
papers.authors: Juntu Zhao, Wenbo Lu, Di Zhang, Yufeng Liu, Yushen Liang, Tianluo Zhang, Yifeng Cao, Junyuan Xie, Yingdong Hu, Shengjie Wang, Junliang Guo, Dequan Wang, Yang Gao
cs.AI
papers.abstract
Imitation-Learning-basierte visuomotorische Strategien werden häufig in der Roboter-Manipulation eingesetzt, wobei typischerweise sowohl visuelle Beobachtungen als auch propriozeptive Zustände gemeinsam für eine präzise Steuerung verwendet werden. In dieser Studie stellen wir jedoch fest, dass diese gängige Praxis dazu führt, dass die Strategie übermäßig auf den propriozeptiven Zustandseingang angewiesen ist, was zu einer Überanpassung an die Trainingspfade führt und eine schlechte räumliche Generalisierung zur Folge hat. Im Gegensatz dazu schlagen wir die State-free Policy vor, bei der der propriozeptive Zustandseingang entfernt wird und Aktionen ausschließlich auf der Grundlage visueller Beobachtungen vorhergesagt werden. Die State-free Policy wird im relativen Endeffektor-Aktionsraum aufgebaut und sollte die vollständigen aufgabenrelevanten visuellen Beobachtungen sicherstellen, die hier durch zwei Weitwinkel-Handgelenkkameras bereitgestellt werden. Empirische Ergebnisse zeigen, dass die State-free Policy eine deutlich stärkere räumliche Generalisierung erreicht als die zustandsbasierte Strategie: Bei realen Aufgaben wie Pick-and-Place, anspruchsvollem Hemdfalten und komplexer Ganzkörper-Manipulation über mehrere Roboter-Implementierungen hinweg verbessert sich die durchschnittliche Erfolgsrate von 0 % auf 85 % bei der Höhen-Generalisierung und von 6 % auf 64 % bei der horizontalen Generalisierung. Darüber hinaus zeigen sie auch Vorteile in Bezug auf Dateneffizienz und Cross-Embodiment-Anpassung, was ihre Praxistauglichkeit für den realen Einsatz erhöht.
English
Imitation-learning-based visuomotor policies have been widely used in robot
manipulation, where both visual observations and proprioceptive states are
typically adopted together for precise control. However, in this study, we find
that this common practice makes the policy overly reliant on the proprioceptive
state input, which causes overfitting to the training trajectories and results
in poor spatial generalization. On the contrary, we propose the State-free
Policy, removing the proprioceptive state input and predicting actions only
conditioned on visual observations. The State-free Policy is built in the
relative end-effector action space, and should ensure the full task-relevant
visual observations, here provided by dual wide-angle wrist cameras. Empirical
results demonstrate that the State-free policy achieves significantly stronger
spatial generalization than the state-based policy: in real-world tasks such as
pick-and-place, challenging shirt-folding, and complex whole-body manipulation,
spanning multiple robot embodiments, the average success rate improves from 0\%
to 85\% in height generalization and from 6\% to 64\% in horizontal
generalization. Furthermore, they also show advantages in data efficiency and
cross-embodiment adaptation, enhancing their practicality for real-world
deployment.