Neuronale Empfindungen mit neuronalen Feldern: Visuell-taktile Wahrnehmung für die Manipulation in der Hand
Neural feels with neural fields: Visuo-tactile perception for in-hand manipulation
December 20, 2023
Autoren: Sudharshan Suresh, Haozhi Qi, Tingfan Wu, Taosha Fan, Luis Pineda, Mike Lambeta, Jitendra Malik, Mrinal Kalakrishnan, Roberto Calandra, Michael Kaess, Joseph Ortiz, Mustafa Mukadam
cs.AI
Zusammenfassung
Um menschenähnliche Geschicklichkeit zu erreichen, müssen Roboter räumliches Bewusstsein aus multimodaler Sensorik ableiten, um Kontaktinteraktionen zu analysieren. Bei der In-Hand-Manipulation neuartiger Objekte umfasst dieses räumliche Bewusstsein die Schätzung der Pose und Form des Objekts. Der aktuelle Stand der In-Hand-Wahrnehmung setzt hauptsächlich auf visuelle Informationen und beschränkt sich auf die Verfolgung von a priori bekannten Objekten. Darüber hinaus ist die visuelle Okklusion von Objekten in der Hand während der Manipulation unvermeidlich, was verhindert, dass aktuelle Systeme Aufgaben ohne Okklusion bewältigen können. Wir kombinieren visuelle und taktile Sensorik an einer mehrfingrigen Hand, um die Pose und Form eines Objekts während der In-Hand-Manipulation zu schätzen. Unsere Methode, NeuralFeels, kodiert die Objektgeometrie durch das Online-Lernen eines neuronalen Feldes und verfolgt sie gemeinsam durch die Optimierung eines Pose-Graph-Problems. Wir untersuchen multimodale In-Hand-Wahrnehmung in Simulation und der realen Welt, indem wir mit verschiedenen Objekten über eine propriozeptionsgesteuerte Policy interagieren. Unsere Experimente zeigen finale Rekonstruktions-F-Scores von 81 % und durchschnittliche Pose-Abweichungen von 4,7 mm, die auf 2,3 mm mit bekannten CAD-Modellen reduziert werden. Zusätzlich beobachten wir, dass wir bei starker visueller Okklusion bis zu 94 % Verbesserungen in der Verfolgung im Vergleich zu rein visuellen Methoden erzielen können. Unsere Ergebnisse zeigen, dass taktile Informationen die visuellen Schätzungen während der In-Hand-Manipulation zumindest verfeinern und im besten Fall eindeutig machen. Wir veröffentlichen unseren Evaluationsdatensatz von 70 Experimenten, FeelSight, als einen Schritt zur Benchmarking in diesem Bereich. Unsere neuronale Darstellung, die durch multimodale Sensorik angetrieben wird, kann als Wahrnehmungsgrundlage für die Weiterentwicklung der Robotergeschicklichkeit dienen. Videos finden Sie auf unserer Projektwebsite https://suddhu.github.io/neural-feels/.
English
To achieve human-level dexterity, robots must infer spatial awareness from
multimodal sensing to reason over contact interactions. During in-hand
manipulation of novel objects, such spatial awareness involves estimating the
object's pose and shape. The status quo for in-hand perception primarily
employs vision, and restricts to tracking a priori known objects. Moreover,
visual occlusion of objects in-hand is imminent during manipulation, preventing
current systems to push beyond tasks without occlusion. We combine vision and
touch sensing on a multi-fingered hand to estimate an object's pose and shape
during in-hand manipulation. Our method, NeuralFeels, encodes object geometry
by learning a neural field online and jointly tracks it by optimizing a pose
graph problem. We study multimodal in-hand perception in simulation and the
real-world, interacting with different objects via a proprioception-driven
policy. Our experiments show final reconstruction F-scores of 81% and average
pose drifts of 4.7,mm, further reduced to 2.3,mm with known
CAD models. Additionally, we observe that under heavy visual occlusion we can
achieve up to 94% improvements in tracking compared to vision-only methods.
Our results demonstrate that touch, at the very least, refines and, at the very
best, disambiguates visual estimates during in-hand manipulation. We release
our evaluation dataset of 70 experiments, FeelSight, as a step towards
benchmarking in this domain. Our neural representation driven by multimodal
sensing can serve as a perception backbone towards advancing robot dexterity.
Videos can be found on our project website
https://suddhu.github.io/neural-feels/