Het leren van generaliseerbare kenmerkvelden voor mobiele manipulatie
Learning Generalizable Feature Fields for Mobile Manipulation
March 12, 2024
Auteurs: Ri-Zhao Qiu, Yafei Hu, Ge Yang, Yuchen Song, Yang Fu, Jianglong Ye, Jiteng Mu, Ruihan Yang, Nikolay Atanasov, Sebastian Scherer, Xiaolong Wang
cs.AI
Samenvatting
Een open probleem in mobiele manipulatie is hoe objecten en scènes op een uniforme manier te representeren, zodat robots deze zowel kunnen gebruiken voor navigatie in de omgeving als voor het manipuleren van objecten. Het laatste vereist het vastleggen van complexe geometrie terwijl fijnmazige semantiek wordt begrepen, terwijl het eerste het vastleggen van de complexiteit inhoudt die inherent is aan een uitgebreide fysieke schaal. In dit werk presenteren we GeFF (Generalizable Feature Fields), een scene-level generaliseerbaar neuraal kenmerkveld dat fungeert als een uniforme representatie voor zowel navigatie als manipulatie en in realtime presteert. Hiervoor behandelen we generatieve novel view synthesis als een voorafgaande taak en aligneren we de resulterende rijke scenepriors met natuurlijke taal via CLIP-kenmerkdistillatie. We demonstreren de effectiviteit van deze aanpak door GeFF te implementeren op een viervoetige robot uitgerust met een manipulator. We evalueren het vermogen van GeFF om te generaliseren naar open-set objecten, evenals de uitvoeringstijd, bij het uitvoeren van open-vocabulary mobiele manipulatie in dynamische scènes.
English
An open problem in mobile manipulation is how to represent objects and scenes
in a unified manner, so that robots can use it both for navigating in the
environment and manipulating objects. The latter requires capturing intricate
geometry while understanding fine-grained semantics, whereas the former
involves capturing the complexity inherit to an expansive physical scale. In
this work, we present GeFF (Generalizable Feature Fields), a scene-level
generalizable neural feature field that acts as a unified representation for
both navigation and manipulation that performs in real-time. To do so, we treat
generative novel view synthesis as a pre-training task, and then align the
resulting rich scene priors with natural language via CLIP feature
distillation. We demonstrate the effectiveness of this approach by deploying
GeFF on a quadrupedal robot equipped with a manipulator. We evaluate GeFF's
ability to generalize to open-set objects as well as running time, when
performing open-vocabulary mobile manipulation in dynamic scenes.