Você Precisa de Estados Proprioceptivos em Políticas Visuomotoras?
Do You Need Proprioceptive States in Visuomotor Policies?
September 23, 2025
Autores: Juntu Zhao, Wenbo Lu, Di Zhang, Yufeng Liu, Yushen Liang, Tianluo Zhang, Yifeng Cao, Junyuan Xie, Yingdong Hu, Shengjie Wang, Junliang Guo, Dequan Wang, Yang Gao
cs.AI
Resumo
Políticas visuomotoras baseadas em aprendizado por imitação têm sido amplamente utilizadas na manipulação robótica, onde tanto observações visuais quanto estados proprioceptivos são tipicamente adotados em conjunto para um controle preciso. No entanto, neste estudo, descobrimos que essa prática comum torna a política excessivamente dependente da entrada do estado proprioceptivo, o que causa sobreajuste às trajetórias de treinamento e resulta em uma generalização espacial ruim. Pelo contrário, propomos a Política Livre de Estado, removendo a entrada do estado proprioceptivo e prevendo ações condicionadas apenas às observações visuais. A Política Livre de Estado é construída no espaço de ação relativa do efetuador final e deve garantir as observações visuais completas relevantes para a tarefa, aqui fornecidas por duas câmeras de ângulo amplo no pulso. Resultados empíricos demonstram que a política livre de estado alcança uma generalização espacial significativamente mais forte do que a política baseada em estado: em tarefas do mundo real, como pegar e colocar, dobragem desafiadora de camisas e manipulação complexa de todo o corpo, abrangendo múltiplas configurações robóticas, a taxa média de sucesso melhora de 0% para 85% na generalização de altura e de 6% para 64% na generalização horizontal. Além disso, elas também mostram vantagens em eficiência de dados e adaptação cruzada entre configurações, aumentando sua praticidade para implantação no mundo real.
English
Imitation-learning-based visuomotor policies have been widely used in robot
manipulation, where both visual observations and proprioceptive states are
typically adopted together for precise control. However, in this study, we find
that this common practice makes the policy overly reliant on the proprioceptive
state input, which causes overfitting to the training trajectories and results
in poor spatial generalization. On the contrary, we propose the State-free
Policy, removing the proprioceptive state input and predicting actions only
conditioned on visual observations. The State-free Policy is built in the
relative end-effector action space, and should ensure the full task-relevant
visual observations, here provided by dual wide-angle wrist cameras. Empirical
results demonstrate that the State-free policy achieves significantly stronger
spatial generalization than the state-based policy: in real-world tasks such as
pick-and-place, challenging shirt-folding, and complex whole-body manipulation,
spanning multiple robot embodiments, the average success rate improves from 0\%
to 85\% in height generalization and from 6\% to 64\% in horizontal
generalization. Furthermore, they also show advantages in data efficiency and
cross-embodiment adaptation, enhancing their practicality for real-world
deployment.