ChatPaper.aiChatPaper

Apprentissage de champs de caractéristiques généralisables pour la manipulation mobile

Learning Generalizable Feature Fields for Mobile Manipulation

March 12, 2024
Auteurs: Ri-Zhao Qiu, Yafei Hu, Ge Yang, Yuchen Song, Yang Fu, Jianglong Ye, Jiteng Mu, Ruihan Yang, Nikolay Atanasov, Sebastian Scherer, Xiaolong Wang
cs.AI

Résumé

Un problème ouvert en manipulation mobile est de savoir comment représenter les objets et les scènes de manière unifiée, afin que les robots puissent l'utiliser à la fois pour naviguer dans l'environnement et manipuler des objets. Ce dernier nécessite de capturer une géométrie complexe tout en comprenant une sémantique fine, tandis que le premier implique de saisir la complexité inhérente à une échelle physique étendue. Dans ce travail, nous présentons GeFF (Generalizable Feature Fields), un champ de caractéristiques neural généralisable au niveau de la scène qui sert de représentation unifiée pour la navigation et la manipulation en temps réel. Pour ce faire, nous traitons la synthèse générative de nouvelles vues comme une tâche de pré-entraînement, puis alignons les riches a priori de scène résultants avec le langage naturel via une distillation de caractéristiques CLIP. Nous démontrons l'efficacité de cette approche en déployant GeFF sur un robot quadrupède équipé d'un manipulateur. Nous évaluons la capacité de GeFF à généraliser à des objets hors ensemble ainsi que son temps d'exécution, lors de la manipulation mobile à vocabulaire ouvert dans des scènes dynamiques.
English
An open problem in mobile manipulation is how to represent objects and scenes in a unified manner, so that robots can use it both for navigating in the environment and manipulating objects. The latter requires capturing intricate geometry while understanding fine-grained semantics, whereas the former involves capturing the complexity inherit to an expansive physical scale. In this work, we present GeFF (Generalizable Feature Fields), a scene-level generalizable neural feature field that acts as a unified representation for both navigation and manipulation that performs in real-time. To do so, we treat generative novel view synthesis as a pre-training task, and then align the resulting rich scene priors with natural language via CLIP feature distillation. We demonstrate the effectiveness of this approach by deploying GeFF on a quadrupedal robot equipped with a manipulator. We evaluate GeFF's ability to generalize to open-set objects as well as running time, when performing open-vocabulary mobile manipulation in dynamic scenes.

Summary

AI-Generated Summary

PDF81December 15, 2024