Neurale gevoelens met neurale velden: Visueel-tactiele waarneming voor manipulatie in de hand
Neural feels with neural fields: Visuo-tactile perception for in-hand manipulation
December 20, 2023
Auteurs: Sudharshan Suresh, Haozhi Qi, Tingfan Wu, Taosha Fan, Luis Pineda, Mike Lambeta, Jitendra Malik, Mrinal Kalakrishnan, Roberto Calandra, Michael Kaess, Joseph Ortiz, Mustafa Mukadam
cs.AI
Samenvatting
Om menselijke behendigheid te bereiken, moeten robots ruimtelijk bewustzijn afleiden uit multimodale sensoren om te redeneren over contactinteracties. Tijdens in-hand manipulatie van nieuwe objecten omvat dit ruimtelijk bewustzijn het schatten van de pose en vorm van het object. De huidige stand van zaken voor in-hand perceptie maakt voornamelijk gebruik van visie en beperkt zich tot het volgen van a priori bekende objecten. Bovendien is visuele occlusie van objecten in de hand onvermijdelijk tijdens manipulatie, waardoor huidige systemen niet verder kunnen gaan dan taken zonder occlusie. Wij combineren visie en tastgevoel op een hand met meerdere vingers om de pose en vorm van een object te schatten tijdens in-hand manipulatie. Onze methode, NeuralFeels, codeert objectgeometrie door online een neuraal veld te leren en volgt het gezamenlijk door een pose-grafiekprobleem te optimaliseren. We bestuderen multimodale in-hand perceptie in simulatie en de echte wereld, waarbij we interageren met verschillende objecten via een proprioceptie-gestuurd beleid. Onze experimenten tonen uiteindelijke reconstructie F-scores van 81% en gemiddelde pose-drifts van 4,7 mm, verder gereduceerd tot 2,3 mm met bekende CAD-modellen. Daarnaast observeren we dat onder zware visuele occlusie we tot 94% verbeteringen in tracking kunnen bereiken in vergelijking met visie-only methoden. Onze resultaten tonen aan dat tast, op zijn minst, visuele schattingen verfijnt en, op zijn best, ambiguïteit oplost tijdens in-hand manipulatie. We publiceren onze evaluatiedataset van 70 experimenten, FeelSight, als een stap naar benchmarking in dit domein. Onze neurale representatie aangedreven door multimodale sensoren kan dienen als een perceptie-backbone voor het bevorderen van robotbehendigheid. Video's zijn te vinden op onze projectwebsite https://suddhu.github.io/neural-feels/.
English
To achieve human-level dexterity, robots must infer spatial awareness from
multimodal sensing to reason over contact interactions. During in-hand
manipulation of novel objects, such spatial awareness involves estimating the
object's pose and shape. The status quo for in-hand perception primarily
employs vision, and restricts to tracking a priori known objects. Moreover,
visual occlusion of objects in-hand is imminent during manipulation, preventing
current systems to push beyond tasks without occlusion. We combine vision and
touch sensing on a multi-fingered hand to estimate an object's pose and shape
during in-hand manipulation. Our method, NeuralFeels, encodes object geometry
by learning a neural field online and jointly tracks it by optimizing a pose
graph problem. We study multimodal in-hand perception in simulation and the
real-world, interacting with different objects via a proprioception-driven
policy. Our experiments show final reconstruction F-scores of 81% and average
pose drifts of 4.7,mm, further reduced to 2.3,mm with known
CAD models. Additionally, we observe that under heavy visual occlusion we can
achieve up to 94% improvements in tracking compared to vision-only methods.
Our results demonstrate that touch, at the very least, refines and, at the very
best, disambiguates visual estimates during in-hand manipulation. We release
our evaluation dataset of 70 experiments, FeelSight, as a step towards
benchmarking in this domain. Our neural representation driven by multimodal
sensing can serve as a perception backbone towards advancing robot dexterity.
Videos can be found on our project website
https://suddhu.github.io/neural-feels/