Apprendimento di Campi di Caratteristiche Generalizzabili per la Manipolazione Mobile
Learning Generalizable Feature Fields for Mobile Manipulation
March 12, 2024
Autori: Ri-Zhao Qiu, Yafei Hu, Ge Yang, Yuchen Song, Yang Fu, Jianglong Ye, Jiteng Mu, Ruihan Yang, Nikolay Atanasov, Sebastian Scherer, Xiaolong Wang
cs.AI
Abstract
Un problema aperto nella manipolazione mobile è come rappresentare oggetti e scene in modo unificato, affinché i robot possano utilizzarlo sia per navigare nell'ambiente che per manipolare oggetti. Quest'ultimo richiede la cattura di geometrie intricate insieme alla comprensione di semantiche dettagliate, mentre il primo implica la gestione della complessità intrinseca di una scala fisica ampia. In questo lavoro, presentiamo GeFF (Generalizable Feature Fields), un campo di feature neurali generalizzabile a livello di scena che funge da rappresentazione unificata sia per la navigazione che per la manipolazione, operando in tempo reale. Per ottenere ciò, trattiamo la sintesi generativa di nuove viste come un'attività di pre-addestramento, per poi allineare i ricchi prior di scena risultanti con il linguaggio naturale attraverso la distillazione di feature CLIP. Dimostriamo l'efficacia di questo approccio implementando GeFF su un robot quadrupede dotato di un manipolatore. Valutiamo la capacità di GeFF di generalizzare a oggetti open-set, nonché i tempi di esecuzione, durante l'esecuzione di manipolazione mobile open-vocabulary in scene dinamiche.
English
An open problem in mobile manipulation is how to represent objects and scenes
in a unified manner, so that robots can use it both for navigating in the
environment and manipulating objects. The latter requires capturing intricate
geometry while understanding fine-grained semantics, whereas the former
involves capturing the complexity inherit to an expansive physical scale. In
this work, we present GeFF (Generalizable Feature Fields), a scene-level
generalizable neural feature field that acts as a unified representation for
both navigation and manipulation that performs in real-time. To do so, we treat
generative novel view synthesis as a pre-training task, and then align the
resulting rich scene priors with natural language via CLIP feature
distillation. We demonstrate the effectiveness of this approach by deploying
GeFF on a quadrupedal robot equipped with a manipulator. We evaluate GeFF's
ability to generalize to open-set objects as well as running time, when
performing open-vocabulary mobile manipulation in dynamic scenes.