ChatPaper.aiChatPaper

Aprendizaje de Campos de Características Generalizables para Manipulación Móvil

Learning Generalizable Feature Fields for Mobile Manipulation

March 12, 2024
Autores: Ri-Zhao Qiu, Yafei Hu, Ge Yang, Yuchen Song, Yang Fu, Jianglong Ye, Jiteng Mu, Ruihan Yang, Nikolay Atanasov, Sebastian Scherer, Xiaolong Wang
cs.AI

Resumen

Un problema abierto en la manipulación móvil es cómo representar objetos y escenas de manera unificada, para que los robots puedan utilizarla tanto para navegar en el entorno como para manipular objetos. Esto último requiere capturar geometrías intrincadas mientras se comprenden semánticas detalladas, mientras que lo primero implica capturar la complejidad inherente a una escala física expansiva. En este trabajo, presentamos GeFF (Campos de Características Generalizables), un campo de características neuronales generalizable a nivel de escena que actúa como una representación unificada tanto para la navegación como para la manipulación, y que funciona en tiempo real. Para lograrlo, tratamos la síntesis generativa de nuevas vistas como una tarea de preentrenamiento, y luego alineamos los ricos conocimientos previos de la escena resultantes con el lenguaje natural mediante la destilación de características de CLIP. Demostramos la efectividad de este enfoque implementando GeFF en un robot cuadrúpedo equipado con un manipulador. Evaluamos la capacidad de GeFF para generalizar a objetos de conjunto abierto, así como su tiempo de ejecución, al realizar manipulación móvil de vocabulario abierto en escenas dinámicas.
English
An open problem in mobile manipulation is how to represent objects and scenes in a unified manner, so that robots can use it both for navigating in the environment and manipulating objects. The latter requires capturing intricate geometry while understanding fine-grained semantics, whereas the former involves capturing the complexity inherit to an expansive physical scale. In this work, we present GeFF (Generalizable Feature Fields), a scene-level generalizable neural feature field that acts as a unified representation for both navigation and manipulation that performs in real-time. To do so, we treat generative novel view synthesis as a pre-training task, and then align the resulting rich scene priors with natural language via CLIP feature distillation. We demonstrate the effectiveness of this approach by deploying GeFF on a quadrupedal robot equipped with a manipulator. We evaluate GeFF's ability to generalize to open-set objects as well as running time, when performing open-vocabulary mobile manipulation in dynamic scenes.

Summary

AI-Generated Summary

PDF81December 15, 2024