Sensazioni neurali con campi neurali: Percezione visuo-tattile per la manipolazione in mano
Neural feels with neural fields: Visuo-tactile perception for in-hand manipulation
December 20, 2023
Autori: Sudharshan Suresh, Haozhi Qi, Tingfan Wu, Taosha Fan, Luis Pineda, Mike Lambeta, Jitendra Malik, Mrinal Kalakrishnan, Roberto Calandra, Michael Kaess, Joseph Ortiz, Mustafa Mukadam
cs.AI
Abstract
Per raggiungere una destrezza di livello umano, i robot devono dedurre la consapevolezza spaziale da sensori multimodali per ragionare sulle interazioni di contatto. Durante la manipolazione in mano di oggetti nuovi, tale consapevolezza spaziale implica la stima della posa e della forma dell'oggetto. Lo stato dell'arte per la percezione in mano si basa principalmente sulla visione e si limita al tracciamento di oggetti noti a priori. Inoltre, l'occlusione visiva degli oggetti in mano è inevitabile durante la manipolazione, impedendo ai sistemi attuali di andare oltre compiti senza occlusione. Combiniamo la visione e il senso del tatto su una mano multifalange per stimare la posa e la forma di un oggetto durante la manipolazione in mano. Il nostro metodo, NeuralFeels, codifica la geometria dell'oggetto apprendendo un campo neurale online e lo traccia congiuntamente ottimizzando un problema di grafo delle pose. Studiamo la percezione multimodale in mano in simulazione e nel mondo reale, interagendo con diversi oggetti tramite una policy guidata dalla propriocezione. I nostri esperimenti mostrano punteggi F finali di ricostruzione dell'81% e derivate medie della posa di 4,7 mm, ulteriormente ridotte a 2,3 mm con modelli CAD noti. Inoltre, osserviamo che sotto forte occlusione visiva possiamo ottenere miglioramenti fino al 94% nel tracciamento rispetto ai metodi basati solo sulla visione. I nostri risultati dimostrano che il tatto, nel migliore dei casi, disambigua e, nel peggiore, affina le stime visive durante la manipolazione in mano. Rilasciamo il nostro dataset di valutazione di 70 esperimenti, FeelSight, come un passo verso il benchmarking in questo dominio. La nostra rappresentazione neurale guidata da sensori multimodali può servire come spina dorsale percettiva per avanzare la destrezza dei robot. I video possono essere trovati sul nostro sito web del progetto https://suddhu.github.io/neural-feels/.
English
To achieve human-level dexterity, robots must infer spatial awareness from
multimodal sensing to reason over contact interactions. During in-hand
manipulation of novel objects, such spatial awareness involves estimating the
object's pose and shape. The status quo for in-hand perception primarily
employs vision, and restricts to tracking a priori known objects. Moreover,
visual occlusion of objects in-hand is imminent during manipulation, preventing
current systems to push beyond tasks without occlusion. We combine vision and
touch sensing on a multi-fingered hand to estimate an object's pose and shape
during in-hand manipulation. Our method, NeuralFeels, encodes object geometry
by learning a neural field online and jointly tracks it by optimizing a pose
graph problem. We study multimodal in-hand perception in simulation and the
real-world, interacting with different objects via a proprioception-driven
policy. Our experiments show final reconstruction F-scores of 81% and average
pose drifts of 4.7,mm, further reduced to 2.3,mm with known
CAD models. Additionally, we observe that under heavy visual occlusion we can
achieve up to 94% improvements in tracking compared to vision-only methods.
Our results demonstrate that touch, at the very least, refines and, at the very
best, disambiguates visual estimates during in-hand manipulation. We release
our evaluation dataset of 70 experiments, FeelSight, as a step towards
benchmarking in this domain. Our neural representation driven by multimodal
sensing can serve as a perception backbone towards advancing robot dexterity.
Videos can be found on our project website
https://suddhu.github.io/neural-feels/