ChatPaper.aiChatPaper

Манипуляция как симуляция: обеспечение точного восприятия геометрии роботами

Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots

September 2, 2025
Авторы: Minghuan Liu, Zhengbang Zhu, Xiaoshen Han, Peng Hu, Haotong Lin, Xinyao Li, Jingxiao Chen, Jiafeng Xu, Yichu Yang, Yunfeng Lin, Xinghang Li, Yong Yu, Weinan Zhang, Tao Kong, Bingyi Kang
cs.AI

Аннотация

Современная роботизированная манипуляция в основном опирается на визуальные наблюдения в 2D-цветовом пространстве для обучения навыкам, но страдает от слабой обобщаемости. В отличие от этого, люди, живущие в 3D-мире, больше полагаются на физические свойства — такие как расстояние, размер и форма — чем на текстуру при взаимодействии с объектами. Поскольку такую 3D-геометрическую информацию можно получить с помощью широко доступных камер глубины, кажется возможным наделить роботов аналогичными перцептивными способностями. Наше пилотное исследование показало, что использование камер глубины для манипуляции является сложной задачей, в основном из-за их ограниченной точности и подверженности различным типам шумов. В данной работе мы предлагаем модели глубины камер (Camera Depth Models, CDMs) в качестве простого плагина для повседневных камер глубины, которые принимают RGB-изображения и необработанные сигналы глубины на вход и выводят очищенную, точную метрическую глубину. Для достижения этого мы разработали нейронный движок данных, который генерирует высококачественные парные данные из симуляции, моделируя шумовой паттерн камеры глубины. Наши результаты показывают, что CDMs достигают почти симуляционного уровня точности в предсказании глубины, эффективно устраняя разрыв между симуляцией и реальностью для задач манипуляции. Примечательно, что наши эксперименты впервые демонстрируют, что политика, обученная на необработанной симулированной глубине, без необходимости добавления шума или тонкой настройки на реальных данных, обобщается на реальных роботов в двух сложных долгосрочных задачах, включающих шарнирные, отражающие и тонкие объекты, с минимальной или нулевой деградацией производительности. Мы надеемся, что наши результаты вдохновят будущие исследования на использование симуляционных данных и 3D-информации в общих политиках роботов.
English
Modern robotic manipulation primarily relies on visual observations in a 2D color space for skill learning but suffers from poor generalization. In contrast, humans, living in a 3D world, depend more on physical properties-such as distance, size, and shape-than on texture when interacting with objects. Since such 3D geometric information can be acquired from widely available depth cameras, it appears feasible to endow robots with similar perceptual capabilities. Our pilot study found that using depth cameras for manipulation is challenging, primarily due to their limited accuracy and susceptibility to various types of noise. In this work, we propose Camera Depth Models (CDMs) as a simple plugin on daily-use depth cameras, which take RGB images and raw depth signals as input and output denoised, accurate metric depth. To achieve this, we develop a neural data engine that generates high-quality paired data from simulation by modeling a depth camera's noise pattern. Our results show that CDMs achieve nearly simulation-level accuracy in depth prediction, effectively bridging the sim-to-real gap for manipulation tasks. Notably, our experiments demonstrate, for the first time, that a policy trained on raw simulated depth, without the need for adding noise or real-world fine-tuning, generalizes seamlessly to real-world robots on two challenging long-horizon tasks involving articulated, reflective, and slender objects, with little to no performance degradation. We hope our findings will inspire future research in utilizing simulation data and 3D information in general robot policies.
PDF41September 4, 2025