ChatPaper.aiChatPaper

Manipulação como Simulação: Permitindo a Percepção Geométrica Precisa em Robôs

Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots

September 2, 2025
Autores: Minghuan Liu, Zhengbang Zhu, Xiaoshen Han, Peng Hu, Haotong Lin, Xinyao Li, Jingxiao Chen, Jiafeng Xu, Yichu Yang, Yunfeng Lin, Xinghang Li, Yong Yu, Weinan Zhang, Tao Kong, Bingyi Kang
cs.AI

Resumo

A manipulação robótica moderna depende principalmente de observações visuais em um espaço de cores 2D para o aprendizado de habilidades, mas sofre com uma generalização precária. Em contraste, os humanos, que vivem em um mundo 3D, dependem mais de propriedades físicas — como distância, tamanho e forma — do que de textura ao interagir com objetos. Como essas informações geométricas 3D podem ser adquiridas por câmeras de profundidade amplamente disponíveis, parece viável dotar os robôs de capacidades perceptivas semelhantes. Nosso estudo piloto descobriu que o uso de câmeras de profundidade para manipulação é desafiador, principalmente devido à sua precisão limitada e suscetibilidade a diversos tipos de ruído. Neste trabalho, propomos os Modelos de Profundidade de Câmera (CDMs, na sigla em inglês) como um plugin simples para câmeras de profundidade de uso diário, que recebem imagens RGB e sinais brutos de profundidade como entrada e produzem uma profundidade métrica precisa e sem ruído. Para isso, desenvolvemos um mecanismo neural de geração de dados que produz dados pareados de alta qualidade a partir de simulações, modelando o padrão de ruído de uma câmera de profundidade. Nossos resultados mostram que os CDMs alcançam uma precisão quase equivalente à de simulações na previsão de profundidade, efetivamente reduzindo a lacuna entre simulação e realidade para tarefas de manipulação. Notavelmente, nossos experimentos demonstram, pela primeira vez, que uma política treinada com dados brutos de profundidade simulada, sem a necessidade de adicionar ruído ou ajustes no mundo real, generaliza-se perfeitamente para robôs reais em duas tarefas desafiadoras de longo prazo envolvendo objetos articulados, reflexivos e delgados, com pouca ou nenhuma degradação de desempenho. Esperamos que nossas descobertas inspirem pesquisas futuras sobre o uso de dados de simulação e informações 3D em políticas robóticas gerais.
English
Modern robotic manipulation primarily relies on visual observations in a 2D color space for skill learning but suffers from poor generalization. In contrast, humans, living in a 3D world, depend more on physical properties-such as distance, size, and shape-than on texture when interacting with objects. Since such 3D geometric information can be acquired from widely available depth cameras, it appears feasible to endow robots with similar perceptual capabilities. Our pilot study found that using depth cameras for manipulation is challenging, primarily due to their limited accuracy and susceptibility to various types of noise. In this work, we propose Camera Depth Models (CDMs) as a simple plugin on daily-use depth cameras, which take RGB images and raw depth signals as input and output denoised, accurate metric depth. To achieve this, we develop a neural data engine that generates high-quality paired data from simulation by modeling a depth camera's noise pattern. Our results show that CDMs achieve nearly simulation-level accuracy in depth prediction, effectively bridging the sim-to-real gap for manipulation tasks. Notably, our experiments demonstrate, for the first time, that a policy trained on raw simulated depth, without the need for adding noise or real-world fine-tuning, generalizes seamlessly to real-world robots on two challenging long-horizon tasks involving articulated, reflective, and slender objects, with little to no performance degradation. We hope our findings will inspire future research in utilizing simulation data and 3D information in general robot policies.
PDF82September 4, 2025