Sensaciones neuronales con campos neuronales: Percepción visuo-táctil para la manipulación en mano

Resumen

Para alcanzar una destreza a nivel humano, los robots deben inferir conciencia espacial a partir de la percepción multimodal para razonar sobre interacciones de contacto. Durante la manipulación en mano de objetos novedosos, dicha conciencia espacial implica estimar la pose y la forma del objeto. El estado actual de la percepción en mano emplea principalmente la visión y se limita a rastrear objetos conocidos a priori. Además, la oclusión visual de los objetos en mano es inminente durante la manipulación, lo que impide que los sistemas actuales avancen más allá de tareas sin oclusión. Combinamos la visión y la percepción táctil en una mano multifuncional para estimar la pose y la forma de un objeto durante la manipulación en mano. Nuestro método, NeuralFeels, codifica la geometría del objeto aprendiendo un campo neuronal en línea y lo rastrea conjuntamente optimizando un problema de grafo de poses. Estudiamos la percepción multimodal en mano en simulación y en el mundo real, interactuando con diferentes objetos mediante una política impulsada por la propiocepción. Nuestros experimentos muestran puntuaciones F finales de reconstrucción del 81% y desviaciones promedio de pose de 4,7 mm, reducidas a 2,3 mm con modelos CAD conocidos. Además, observamos que bajo una fuerte oclusión visual podemos lograr mejoras de hasta el 94% en el seguimiento en comparación con métodos basados únicamente en visión. Nuestros resultados demuestran que el tacto, como mínimo, refina y, en el mejor de los casos, desambigua las estimaciones visuales durante la manipulación en mano. Publicamos nuestro conjunto de datos de evaluación de 70 experimentos, FeelSight, como un paso hacia la evaluación comparativa en este dominio. Nuestra representación neuronal impulsada por la percepción multimodal puede servir como columna vertebral de percepción para avanzar en la destreza robótica. Los videos pueden encontrarse en nuestro sitio web del proyecto: https://suddhu.github.io/neural-feels/

English

To achieve human-level dexterity, robots must infer spatial awareness from multimodal sensing to reason over contact interactions. During in-hand manipulation of novel objects, such spatial awareness involves estimating the object's pose and shape. The status quo for in-hand perception primarily employs vision, and restricts to tracking a priori known objects. Moreover, visual occlusion of objects in-hand is imminent during manipulation, preventing current systems to push beyond tasks without occlusion. We combine vision and touch sensing on a multi-fingered hand to estimate an object's pose and shape during in-hand manipulation. Our method, NeuralFeels, encodes object geometry by learning a neural field online and jointly tracks it by optimizing a pose graph problem. We study multimodal in-hand perception in simulation and the real-world, interacting with different objects via a proprioception-driven policy. Our experiments show final reconstruction F-scores of 81% and average pose drifts of 4.7,mm, further reduced to 2.3,mm with known CAD models. Additionally, we observe that under heavy visual occlusion we can achieve up to 94% improvements in tracking compared to vision-only methods. Our results demonstrate that touch, at the very least, refines and, at the very best, disambiguates visual estimates during in-hand manipulation. We release our evaluation dataset of 70 experiments, FeelSight, as a step towards benchmarking in this domain. Our neural representation driven by multimodal sensing can serve as a perception backbone towards advancing robot dexterity. Videos can be found on our project website https://suddhu.github.io/neural-feels/

Sensaciones neuronales con campos neuronales: Percepción visuo-táctil para la manipulación en mano

Neural feels with neural fields: Visuo-tactile perception for in-hand manipulation

Resumen

Support