Sensaciones neuronales con campos neuronales: Percepción visuo-táctil para la manipulación en mano
Neural feels with neural fields: Visuo-tactile perception for in-hand manipulation
December 20, 2023
Autores: Sudharshan Suresh, Haozhi Qi, Tingfan Wu, Taosha Fan, Luis Pineda, Mike Lambeta, Jitendra Malik, Mrinal Kalakrishnan, Roberto Calandra, Michael Kaess, Joseph Ortiz, Mustafa Mukadam
cs.AI
Resumen
Para alcanzar una destreza a nivel humano, los robots deben inferir conciencia espacial a partir de la percepción multimodal para razonar sobre interacciones de contacto. Durante la manipulación en mano de objetos novedosos, dicha conciencia espacial implica estimar la pose y la forma del objeto. El estado actual de la percepción en mano emplea principalmente la visión y se limita a rastrear objetos conocidos a priori. Además, la oclusión visual de los objetos en mano es inminente durante la manipulación, lo que impide que los sistemas actuales avancen más allá de tareas sin oclusión. Combinamos la visión y la percepción táctil en una mano multifuncional para estimar la pose y la forma de un objeto durante la manipulación en mano. Nuestro método, NeuralFeels, codifica la geometría del objeto aprendiendo un campo neuronal en línea y lo rastrea conjuntamente optimizando un problema de grafo de poses. Estudiamos la percepción multimodal en mano en simulación y en el mundo real, interactuando con diferentes objetos mediante una política impulsada por la propiocepción. Nuestros experimentos muestran puntuaciones F finales de reconstrucción del 81% y desviaciones promedio de pose de 4,7 mm, reducidas a 2,3 mm con modelos CAD conocidos. Además, observamos que bajo una fuerte oclusión visual podemos lograr mejoras de hasta el 94% en el seguimiento en comparación con métodos basados únicamente en visión. Nuestros resultados demuestran que el tacto, como mínimo, refina y, en el mejor de los casos, desambigua las estimaciones visuales durante la manipulación en mano. Publicamos nuestro conjunto de datos de evaluación de 70 experimentos, FeelSight, como un paso hacia la evaluación comparativa en este dominio. Nuestra representación neuronal impulsada por la percepción multimodal puede servir como columna vertebral de percepción para avanzar en la destreza robótica. Los videos pueden encontrarse en nuestro sitio web del proyecto: https://suddhu.github.io/neural-feels/
English
To achieve human-level dexterity, robots must infer spatial awareness from
multimodal sensing to reason over contact interactions. During in-hand
manipulation of novel objects, such spatial awareness involves estimating the
object's pose and shape. The status quo for in-hand perception primarily
employs vision, and restricts to tracking a priori known objects. Moreover,
visual occlusion of objects in-hand is imminent during manipulation, preventing
current systems to push beyond tasks without occlusion. We combine vision and
touch sensing on a multi-fingered hand to estimate an object's pose and shape
during in-hand manipulation. Our method, NeuralFeels, encodes object geometry
by learning a neural field online and jointly tracks it by optimizing a pose
graph problem. We study multimodal in-hand perception in simulation and the
real-world, interacting with different objects via a proprioception-driven
policy. Our experiments show final reconstruction F-scores of 81% and average
pose drifts of 4.7,mm, further reduced to 2.3,mm with known
CAD models. Additionally, we observe that under heavy visual occlusion we can
achieve up to 94% improvements in tracking compared to vision-only methods.
Our results demonstrate that touch, at the very least, refines and, at the very
best, disambiguates visual estimates during in-hand manipulation. We release
our evaluation dataset of 70 experiments, FeelSight, as a step towards
benchmarking in this domain. Our neural representation driven by multimodal
sensing can serve as a perception backbone towards advancing robot dexterity.
Videos can be found on our project website
https://suddhu.github.io/neural-feels/