Lernen von generalisierbaren Merkmalsfeldern für mobile Manipulation
Learning Generalizable Feature Fields for Mobile Manipulation
March 12, 2024
Autoren: Ri-Zhao Qiu, Yafei Hu, Ge Yang, Yuchen Song, Yang Fu, Jianglong Ye, Jiteng Mu, Ruihan Yang, Nikolay Atanasov, Sebastian Scherer, Xiaolong Wang
cs.AI
Zusammenfassung
Ein offenes Problem in der mobilen Manipulation ist, wie Objekte und Szenen in einer vereinheitlichten Weise dargestellt werden können, damit Roboter sie sowohl zur Navigation in der Umgebung als auch zur Manipulation von Objekten verwenden können. Letzteres erfordert das Erfassen komplexer Geometrie und das Verständnis feingranularer Semantik, während Ersteres die Erfassung der Komplexität beinhaltet, die einer umfangreichen physischen Skala innewohnt. In dieser Arbeit präsentieren wir GeFF (Generalizable Feature Fields), ein auf Szenenebene generalisierbares neuronales Merkmalsfeld, das als vereinheitlichte Darstellung sowohl für Navigation als auch Manipulation fungiert und in Echtzeit funktioniert. Hierfür behandeln wir die generative Neuansichtssynthese als eine Vortrainingsaufgabe und gleichen dann die resultierenden reichen Szeneprioritäten über CLIP-Merkmaldestillation mit natürlicher Sprache ab. Wir zeigen die Wirksamkeit dieses Ansatzes, indem wir GeFF auf einem vierbeinigen Roboter mit Manipulator einsetzen. Wir bewerten die Fähigkeit von GeFF, sich auf Objekte in offenen Sets zu verallgemeinern, sowie die Ausführungszeit bei der Durchführung von mobiler Manipulation mit offener Vokabel in dynamischen Szenen.
English
An open problem in mobile manipulation is how to represent objects and scenes
in a unified manner, so that robots can use it both for navigating in the
environment and manipulating objects. The latter requires capturing intricate
geometry while understanding fine-grained semantics, whereas the former
involves capturing the complexity inherit to an expansive physical scale. In
this work, we present GeFF (Generalizable Feature Fields), a scene-level
generalizable neural feature field that acts as a unified representation for
both navigation and manipulation that performs in real-time. To do so, we treat
generative novel view synthesis as a pre-training task, and then align the
resulting rich scene priors with natural language via CLIP feature
distillation. We demonstrate the effectiveness of this approach by deploying
GeFF on a quadrupedal robot equipped with a manipulator. We evaluate GeFF's
ability to generalize to open-set objects as well as running time, when
performing open-vocabulary mobile manipulation in dynamic scenes.Summary
AI-Generated Summary