ChatPaper.aiChatPaper

Lernen von generalisierbaren Merkmalsfeldern für mobile Manipulation

Learning Generalizable Feature Fields for Mobile Manipulation

March 12, 2024
Autoren: Ri-Zhao Qiu, Yafei Hu, Ge Yang, Yuchen Song, Yang Fu, Jianglong Ye, Jiteng Mu, Ruihan Yang, Nikolay Atanasov, Sebastian Scherer, Xiaolong Wang
cs.AI

Zusammenfassung

Ein offenes Problem in der mobilen Manipulation ist, wie Objekte und Szenen in einer vereinheitlichten Weise dargestellt werden können, damit Roboter sie sowohl zur Navigation in der Umgebung als auch zur Manipulation von Objekten verwenden können. Letzteres erfordert das Erfassen komplexer Geometrie und das Verständnis feingranularer Semantik, während Ersteres die Erfassung der Komplexität beinhaltet, die einer umfangreichen physischen Skala innewohnt. In dieser Arbeit präsentieren wir GeFF (Generalizable Feature Fields), ein auf Szenenebene generalisierbares neuronales Merkmalsfeld, das als vereinheitlichte Darstellung sowohl für Navigation als auch Manipulation fungiert und in Echtzeit funktioniert. Hierfür behandeln wir die generative Neuansichtssynthese als eine Vortrainingsaufgabe und gleichen dann die resultierenden reichen Szeneprioritäten über CLIP-Merkmaldestillation mit natürlicher Sprache ab. Wir zeigen die Wirksamkeit dieses Ansatzes, indem wir GeFF auf einem vierbeinigen Roboter mit Manipulator einsetzen. Wir bewerten die Fähigkeit von GeFF, sich auf Objekte in offenen Sets zu verallgemeinern, sowie die Ausführungszeit bei der Durchführung von mobiler Manipulation mit offener Vokabel in dynamischen Szenen.
English
An open problem in mobile manipulation is how to represent objects and scenes in a unified manner, so that robots can use it both for navigating in the environment and manipulating objects. The latter requires capturing intricate geometry while understanding fine-grained semantics, whereas the former involves capturing the complexity inherit to an expansive physical scale. In this work, we present GeFF (Generalizable Feature Fields), a scene-level generalizable neural feature field that acts as a unified representation for both navigation and manipulation that performs in real-time. To do so, we treat generative novel view synthesis as a pre-training task, and then align the resulting rich scene priors with natural language via CLIP feature distillation. We demonstrate the effectiveness of this approach by deploying GeFF on a quadrupedal robot equipped with a manipulator. We evaluate GeFF's ability to generalize to open-set objects as well as running time, when performing open-vocabulary mobile manipulation in dynamic scenes.

Summary

AI-Generated Summary

PDF81December 15, 2024