Apprendimento di Campi di Caratteristiche Generalizzabili per la Manipolazione Mobile

Abstract

Un problema aperto nella manipolazione mobile è come rappresentare oggetti e scene in modo unificato, affinché i robot possano utilizzarlo sia per navigare nell'ambiente che per manipolare oggetti. Quest'ultimo richiede la cattura di geometrie intricate insieme alla comprensione di semantiche dettagliate, mentre il primo implica la gestione della complessità intrinseca di una scala fisica ampia. In questo lavoro, presentiamo GeFF (Generalizable Feature Fields), un campo di feature neurali generalizzabile a livello di scena che funge da rappresentazione unificata sia per la navigazione che per la manipolazione, operando in tempo reale. Per ottenere ciò, trattiamo la sintesi generativa di nuove viste come un'attività di pre-addestramento, per poi allineare i ricchi prior di scena risultanti con il linguaggio naturale attraverso la distillazione di feature CLIP. Dimostriamo l'efficacia di questo approccio implementando GeFF su un robot quadrupede dotato di un manipolatore. Valutiamo la capacità di GeFF di generalizzare a oggetti open-set, nonché i tempi di esecuzione, durante l'esecuzione di manipolazione mobile open-vocabulary in scene dinamiche.

English

An open problem in mobile manipulation is how to represent objects and scenes in a unified manner, so that robots can use it both for navigating in the environment and manipulating objects. The latter requires capturing intricate geometry while understanding fine-grained semantics, whereas the former involves capturing the complexity inherit to an expansive physical scale. In this work, we present GeFF (Generalizable Feature Fields), a scene-level generalizable neural feature field that acts as a unified representation for both navigation and manipulation that performs in real-time. To do so, we treat generative novel view synthesis as a pre-training task, and then align the resulting rich scene priors with natural language via CLIP feature distillation. We demonstrate the effectiveness of this approach by deploying GeFF on a quadrupedal robot equipped with a manipulator. We evaluate GeFF's ability to generalize to open-set objects as well as running time, when performing open-vocabulary mobile manipulation in dynamic scenes.

Apprendimento di Campi di Caratteristiche Generalizzabili per la Manipolazione Mobile

Learning Generalizable Feature Fields for Mobile Manipulation

Abstract

Support