ChatPaper.aiChatPaper

Нужны ли проприоцептивные состояния в визуомоторных политиках?

Do You Need Proprioceptive States in Visuomotor Policies?

September 23, 2025
Авторы: Juntu Zhao, Wenbo Lu, Di Zhang, Yufeng Liu, Yushen Liang, Tianluo Zhang, Yifeng Cao, Junyuan Xie, Yingdong Hu, Shengjie Wang, Junliang Guo, Dequan Wang, Yang Gao
cs.AI

Аннотация

Визуомоторные политики, основанные на обучении с подражанием, широко используются в манипуляционных задачах роботов, где для точного управления обычно применяются как визуальные наблюдения, так и проприоцептивные состояния. Однако в данном исследовании мы обнаруживаем, что такая распространённая практика делает политику чрезмерно зависимой от входных данных проприоцептивного состояния, что приводит к переобучению на тренировочных траекториях и ухудшает пространственную обобщаемость. В противовес этому мы предлагаем политику без состояния (State-free Policy), которая исключает входные данные проприоцептивного состояния и предсказывает действия, основываясь только на визуальных наблюдениях. Эта политика строится в пространстве относительных действий конечного эффектора и должна обеспечивать полный охват визуальных наблюдений, релевантных задаче, что в данном случае достигается за счёт использования двух широкоугольных камер на запястье. Экспериментальные результаты демонстрируют, что политика без состояния достигает значительно более сильной пространственной обобщаемости по сравнению с политикой, использующей состояние: в реальных задачах, таких как захват и перемещение объектов, сложное складывание одежды и комплексные манипуляции с использованием всего тела, охватывающих различные конфигурации роботов, средний показатель успешности улучшается с 0\% до 85\% в обобщении по высоте и с 6\% до 64\% в горизонтальном обобщении. Кроме того, такая политика также демонстрирует преимущества в эффективности использования данных и адаптации к различным конфигурациям роботов, что повышает её практическую применимость для реального внедрения.
English
Imitation-learning-based visuomotor policies have been widely used in robot manipulation, where both visual observations and proprioceptive states are typically adopted together for precise control. However, in this study, we find that this common practice makes the policy overly reliant on the proprioceptive state input, which causes overfitting to the training trajectories and results in poor spatial generalization. On the contrary, we propose the State-free Policy, removing the proprioceptive state input and predicting actions only conditioned on visual observations. The State-free Policy is built in the relative end-effector action space, and should ensure the full task-relevant visual observations, here provided by dual wide-angle wrist cameras. Empirical results demonstrate that the State-free policy achieves significantly stronger spatial generalization than the state-based policy: in real-world tasks such as pick-and-place, challenging shirt-folding, and complex whole-body manipulation, spanning multiple robot embodiments, the average success rate improves from 0\% to 85\% in height generalization and from 6\% to 64\% in horizontal generalization. Furthermore, they also show advantages in data efficiency and cross-embodiment adaptation, enhancing their practicality for real-world deployment.
PDF492September 24, 2025