Sensazioni neurali con campi neurali: Percezione visuo-tattile per la manipolazione in mano

Abstract

Per raggiungere una destrezza di livello umano, i robot devono dedurre la consapevolezza spaziale da sensori multimodali per ragionare sulle interazioni di contatto. Durante la manipolazione in mano di oggetti nuovi, tale consapevolezza spaziale implica la stima della posa e della forma dell'oggetto. Lo stato dell'arte per la percezione in mano si basa principalmente sulla visione e si limita al tracciamento di oggetti noti a priori. Inoltre, l'occlusione visiva degli oggetti in mano è inevitabile durante la manipolazione, impedendo ai sistemi attuali di andare oltre compiti senza occlusione. Combiniamo la visione e il senso del tatto su una mano multifalange per stimare la posa e la forma di un oggetto durante la manipolazione in mano. Il nostro metodo, NeuralFeels, codifica la geometria dell'oggetto apprendendo un campo neurale online e lo traccia congiuntamente ottimizzando un problema di grafo delle pose. Studiamo la percezione multimodale in mano in simulazione e nel mondo reale, interagendo con diversi oggetti tramite una policy guidata dalla propriocezione. I nostri esperimenti mostrano punteggi F finali di ricostruzione dell'81% e derivate medie della posa di 4,7 mm, ulteriormente ridotte a 2,3 mm con modelli CAD noti. Inoltre, osserviamo che sotto forte occlusione visiva possiamo ottenere miglioramenti fino al 94% nel tracciamento rispetto ai metodi basati solo sulla visione. I nostri risultati dimostrano che il tatto, nel migliore dei casi, disambigua e, nel peggiore, affina le stime visive durante la manipolazione in mano. Rilasciamo il nostro dataset di valutazione di 70 esperimenti, FeelSight, come un passo verso il benchmarking in questo dominio. La nostra rappresentazione neurale guidata da sensori multimodali può servire come spina dorsale percettiva per avanzare la destrezza dei robot. I video possono essere trovati sul nostro sito web del progetto https://suddhu.github.io/neural-feels/.

English

To achieve human-level dexterity, robots must infer spatial awareness from multimodal sensing to reason over contact interactions. During in-hand manipulation of novel objects, such spatial awareness involves estimating the object's pose and shape. The status quo for in-hand perception primarily employs vision, and restricts to tracking a priori known objects. Moreover, visual occlusion of objects in-hand is imminent during manipulation, preventing current systems to push beyond tasks without occlusion. We combine vision and touch sensing on a multi-fingered hand to estimate an object's pose and shape during in-hand manipulation. Our method, NeuralFeels, encodes object geometry by learning a neural field online and jointly tracks it by optimizing a pose graph problem. We study multimodal in-hand perception in simulation and the real-world, interacting with different objects via a proprioception-driven policy. Our experiments show final reconstruction F-scores of 81% and average pose drifts of 4.7,mm, further reduced to 2.3,mm with known CAD models. Additionally, we observe that under heavy visual occlusion we can achieve up to 94% improvements in tracking compared to vision-only methods. Our results demonstrate that touch, at the very least, refines and, at the very best, disambiguates visual estimates during in-hand manipulation. We release our evaluation dataset of 70 experiments, FeelSight, as a step towards benchmarking in this domain. Our neural representation driven by multimodal sensing can serve as a perception backbone towards advancing robot dexterity. Videos can be found on our project website https://suddhu.github.io/neural-feels/

Sensazioni neurali con campi neurali: Percezione visuo-tattile per la manipolazione in mano

Neural feels with neural fields: Visuo-tactile perception for in-hand manipulation

Abstract

Support