Sensations neuronales avec champs neuronaux : Perception visuo-tactile pour la manipulation en main
Neural feels with neural fields: Visuo-tactile perception for in-hand manipulation
December 20, 2023
Auteurs: Sudharshan Suresh, Haozhi Qi, Tingfan Wu, Taosha Fan, Luis Pineda, Mike Lambeta, Jitendra Malik, Mrinal Kalakrishnan, Roberto Calandra, Michael Kaess, Joseph Ortiz, Mustafa Mukadam
cs.AI
Résumé
Pour atteindre une dextérité de niveau humain, les robots doivent déduire une conscience spatiale à partir d'une perception multimodale afin de raisonner sur les interactions de contact. Lors de la manipulation en main d'objets nouveaux, cette conscience spatiale implique d'estimer la pose et la forme de l'objet. L'état actuel de la perception en main repose principalement sur la vision et se limite au suivi d'objets connus a priori. De plus, l'occlusion visuelle des objets en main est inévitable pendant la manipulation, empêchant les systèmes actuels de dépasser les tâches sans occlusion. Nous combinons la vision et la perception tactile sur une main multifingérée pour estimer la pose et la forme d'un objet pendant la manipulation en main. Notre méthode, NeuralFeels, encode la géométrie de l'objet en apprenant un champ neuronal en ligne et le suit conjointement en optimisant un problème de graphe de pose. Nous étudions la perception multimodale en main en simulation et dans le monde réel, en interagissant avec différents objets via une politique pilotée par la proprioception. Nos expériences montrent des scores F de reconstruction finale de 81 % et des dérives de pose moyennes de 4,7 mm, réduites à 2,3 mm avec des modèles CAO connus. De plus, nous observons que sous une forte occlusion visuelle, nous pouvons obtenir jusqu'à 94 % d'amélioration dans le suivi par rapport aux méthodes basées uniquement sur la vision. Nos résultats démontrent que le toucher, au minimum, affine et, au mieux, désambigüise les estimations visuelles pendant la manipulation en main. Nous publions notre ensemble de données d'évaluation de 70 expériences, FeelSight, comme une étape vers l'établissement de références dans ce domaine. Notre représentation neuronale pilotée par la perception multimodale peut servir de colonne vertébrale perceptive pour faire progresser la dextérité des robots. Les vidéos sont disponibles sur notre site web de projet : https://suddhu.github.io/neural-feels/
English
To achieve human-level dexterity, robots must infer spatial awareness from
multimodal sensing to reason over contact interactions. During in-hand
manipulation of novel objects, such spatial awareness involves estimating the
object's pose and shape. The status quo for in-hand perception primarily
employs vision, and restricts to tracking a priori known objects. Moreover,
visual occlusion of objects in-hand is imminent during manipulation, preventing
current systems to push beyond tasks without occlusion. We combine vision and
touch sensing on a multi-fingered hand to estimate an object's pose and shape
during in-hand manipulation. Our method, NeuralFeels, encodes object geometry
by learning a neural field online and jointly tracks it by optimizing a pose
graph problem. We study multimodal in-hand perception in simulation and the
real-world, interacting with different objects via a proprioception-driven
policy. Our experiments show final reconstruction F-scores of 81% and average
pose drifts of 4.7,mm, further reduced to 2.3,mm with known
CAD models. Additionally, we observe that under heavy visual occlusion we can
achieve up to 94% improvements in tracking compared to vision-only methods.
Our results demonstrate that touch, at the very least, refines and, at the very
best, disambiguates visual estimates during in-hand manipulation. We release
our evaluation dataset of 70 experiments, FeelSight, as a step towards
benchmarking in this domain. Our neural representation driven by multimodal
sensing can serve as a perception backbone towards advancing robot dexterity.
Videos can be found on our project website
https://suddhu.github.io/neural-feels/