Sensações neurais com campos neurais: Percepção visuo-tátil para manipulação em mãos
Neural feels with neural fields: Visuo-tactile perception for in-hand manipulation
December 20, 2023
Autores: Sudharshan Suresh, Haozhi Qi, Tingfan Wu, Taosha Fan, Luis Pineda, Mike Lambeta, Jitendra Malik, Mrinal Kalakrishnan, Roberto Calandra, Michael Kaess, Joseph Ortiz, Mustafa Mukadam
cs.AI
Resumo
Para alcançar destreza em nível humano, os robôs devem inferir consciência espacial a partir de sensoriamento multimodal para raciocinar sobre interações de contato. Durante a manipulação de novos objetos com as mãos, essa consciência espacial envolve estimar a pose e a forma do objeto. O estado atual da percepção durante a manipulação com as mãos emprega principalmente a visão e se restringe ao rastreamento de objetos previamente conhecidos. Além disso, a oclusão visual de objetos durante a manipulação é iminente, impedindo que os sistemas atuais avancem além de tarefas sem oclusão. Combinamos sensoriamento visual e tátil em uma mão multifuncional para estimar a pose e a forma de um objeto durante a manipulação com as mãos. Nosso método, NeuralFeels, codifica a geometria do objeto aprendendo um campo neural online e o rastreia conjuntamente otimizando um problema de grafo de pose. Estudamos a percepção multimodal durante a manipulação com as mãos em simulação e no mundo real, interagindo com diferentes objetos por meio de uma política orientada por propriocepção. Nossos experimentos mostram pontuações F finais de reconstrução de 81% e desvios médios de pose de 4,7 mm, reduzidos para 2,3 mm com modelos CAD conhecidos. Além disso, observamos que, sob forte oclusão visual, podemos alcançar melhorias de até 94% no rastreamento em comparação com métodos baseados apenas em visão. Nossos resultados demonstram que o toque, no mínimo, refina e, no máximo, desambigua as estimativas visuais durante a manipulação com as mãos. Lançamos nosso conjunto de dados de avaliação de 70 experimentos, FeelSight, como um passo em direção à criação de benchmarks nesse domínio. Nossa representação neural impulsionada por sensoriamento multimodal pode servir como uma base de percepção para avançar a destreza robótica. Vídeos podem ser encontrados em nosso site do projeto: https://suddhu.github.io/neural-feels/
English
To achieve human-level dexterity, robots must infer spatial awareness from
multimodal sensing to reason over contact interactions. During in-hand
manipulation of novel objects, such spatial awareness involves estimating the
object's pose and shape. The status quo for in-hand perception primarily
employs vision, and restricts to tracking a priori known objects. Moreover,
visual occlusion of objects in-hand is imminent during manipulation, preventing
current systems to push beyond tasks without occlusion. We combine vision and
touch sensing on a multi-fingered hand to estimate an object's pose and shape
during in-hand manipulation. Our method, NeuralFeels, encodes object geometry
by learning a neural field online and jointly tracks it by optimizing a pose
graph problem. We study multimodal in-hand perception in simulation and the
real-world, interacting with different objects via a proprioception-driven
policy. Our experiments show final reconstruction F-scores of 81% and average
pose drifts of 4.7,mm, further reduced to 2.3,mm with known
CAD models. Additionally, we observe that under heavy visual occlusion we can
achieve up to 94% improvements in tracking compared to vision-only methods.
Our results demonstrate that touch, at the very least, refines and, at the very
best, disambiguates visual estimates during in-hand manipulation. We release
our evaluation dataset of 70 experiments, FeelSight, as a step towards
benchmarking in this domain. Our neural representation driven by multimodal
sensing can serve as a perception backbone towards advancing robot dexterity.
Videos can be found on our project website
https://suddhu.github.io/neural-feels/