Sensações neurais com campos neurais: Percepção visuo-tátil para manipulação em mãos

Resumo

Para alcançar destreza em nível humano, os robôs devem inferir consciência espacial a partir de sensoriamento multimodal para raciocinar sobre interações de contato. Durante a manipulação de novos objetos com as mãos, essa consciência espacial envolve estimar a pose e a forma do objeto. O estado atual da percepção durante a manipulação com as mãos emprega principalmente a visão e se restringe ao rastreamento de objetos previamente conhecidos. Além disso, a oclusão visual de objetos durante a manipulação é iminente, impedindo que os sistemas atuais avancem além de tarefas sem oclusão. Combinamos sensoriamento visual e tátil em uma mão multifuncional para estimar a pose e a forma de um objeto durante a manipulação com as mãos. Nosso método, NeuralFeels, codifica a geometria do objeto aprendendo um campo neural online e o rastreia conjuntamente otimizando um problema de grafo de pose. Estudamos a percepção multimodal durante a manipulação com as mãos em simulação e no mundo real, interagindo com diferentes objetos por meio de uma política orientada por propriocepção. Nossos experimentos mostram pontuações F finais de reconstrução de 81% e desvios médios de pose de 4,7 mm, reduzidos para 2,3 mm com modelos CAD conhecidos. Além disso, observamos que, sob forte oclusão visual, podemos alcançar melhorias de até 94% no rastreamento em comparação com métodos baseados apenas em visão. Nossos resultados demonstram que o toque, no mínimo, refina e, no máximo, desambigua as estimativas visuais durante a manipulação com as mãos. Lançamos nosso conjunto de dados de avaliação de 70 experimentos, FeelSight, como um passo em direção à criação de benchmarks nesse domínio. Nossa representação neural impulsionada por sensoriamento multimodal pode servir como uma base de percepção para avançar a destreza robótica. Vídeos podem ser encontrados em nosso site do projeto: https://suddhu.github.io/neural-feels/

English

To achieve human-level dexterity, robots must infer spatial awareness from multimodal sensing to reason over contact interactions. During in-hand manipulation of novel objects, such spatial awareness involves estimating the object's pose and shape. The status quo for in-hand perception primarily employs vision, and restricts to tracking a priori known objects. Moreover, visual occlusion of objects in-hand is imminent during manipulation, preventing current systems to push beyond tasks without occlusion. We combine vision and touch sensing on a multi-fingered hand to estimate an object's pose and shape during in-hand manipulation. Our method, NeuralFeels, encodes object geometry by learning a neural field online and jointly tracks it by optimizing a pose graph problem. We study multimodal in-hand perception in simulation and the real-world, interacting with different objects via a proprioception-driven policy. Our experiments show final reconstruction F-scores of 81% and average pose drifts of 4.7,mm, further reduced to 2.3,mm with known CAD models. Additionally, we observe that under heavy visual occlusion we can achieve up to 94% improvements in tracking compared to vision-only methods. Our results demonstrate that touch, at the very least, refines and, at the very best, disambiguates visual estimates during in-hand manipulation. We release our evaluation dataset of 70 experiments, FeelSight, as a step towards benchmarking in this domain. Our neural representation driven by multimodal sensing can serve as a perception backbone towards advancing robot dexterity. Videos can be found on our project website https://suddhu.github.io/neural-feels/

Sensações neurais com campos neurais: Percepção visuo-tátil para manipulação em mãos

Neural feels with neural fields: Visuo-tactile perception for in-hand manipulation

Resumo

Support