Aprendizaje de Campos de Características Generalizables para Manipulación Móvil
Learning Generalizable Feature Fields for Mobile Manipulation
March 12, 2024
Autores: Ri-Zhao Qiu, Yafei Hu, Ge Yang, Yuchen Song, Yang Fu, Jianglong Ye, Jiteng Mu, Ruihan Yang, Nikolay Atanasov, Sebastian Scherer, Xiaolong Wang
cs.AI
Resumen
Un problema abierto en la manipulación móvil es cómo representar objetos y escenas de manera unificada, para que los robots puedan utilizarla tanto para navegar en el entorno como para manipular objetos. Esto último requiere capturar geometrías intrincadas mientras se comprenden semánticas detalladas, mientras que lo primero implica capturar la complejidad inherente a una escala física expansiva. En este trabajo, presentamos GeFF (Campos de Características Generalizables), un campo de características neuronales generalizable a nivel de escena que actúa como una representación unificada tanto para la navegación como para la manipulación, y que funciona en tiempo real. Para lograrlo, tratamos la síntesis generativa de nuevas vistas como una tarea de preentrenamiento, y luego alineamos los ricos conocimientos previos de la escena resultantes con el lenguaje natural mediante la destilación de características de CLIP. Demostramos la efectividad de este enfoque implementando GeFF en un robot cuadrúpedo equipado con un manipulador. Evaluamos la capacidad de GeFF para generalizar a objetos de conjunto abierto, así como su tiempo de ejecución, al realizar manipulación móvil de vocabulario abierto en escenas dinámicas.
English
An open problem in mobile manipulation is how to represent objects and scenes
in a unified manner, so that robots can use it both for navigating in the
environment and manipulating objects. The latter requires capturing intricate
geometry while understanding fine-grained semantics, whereas the former
involves capturing the complexity inherit to an expansive physical scale. In
this work, we present GeFF (Generalizable Feature Fields), a scene-level
generalizable neural feature field that acts as a unified representation for
both navigation and manipulation that performs in real-time. To do so, we treat
generative novel view synthesis as a pre-training task, and then align the
resulting rich scene priors with natural language via CLIP feature
distillation. We demonstrate the effectiveness of this approach by deploying
GeFF on a quadrupedal robot equipped with a manipulator. We evaluate GeFF's
ability to generalize to open-set objects as well as running time, when
performing open-vocabulary mobile manipulation in dynamic scenes.Summary
AI-Generated Summary