ChatPaper.aiChatPaper

Aprendendo Campos de Características Generalizáveis para Manipulação Móvel

Learning Generalizable Feature Fields for Mobile Manipulation

March 12, 2024
Autores: Ri-Zhao Qiu, Yafei Hu, Ge Yang, Yuchen Song, Yang Fu, Jianglong Ye, Jiteng Mu, Ruihan Yang, Nikolay Atanasov, Sebastian Scherer, Xiaolong Wang
cs.AI

Resumo

Um problema em aberto na manipulação móvel é como representar objetos e cenas de maneira unificada, para que os robôs possam utilizá-la tanto para navegar no ambiente quanto para manipular objetos. Este último requer capturar geometrias intrincadas enquanto compreende semânticas refinadas, enquanto o primeiro envolve capturar a complexidade inerente a uma escala física expansiva. Neste trabalho, apresentamos o GeFF (Generalizable Feature Fields), um campo de características neurais generalizável em nível de cena que atua como uma representação unificada tanto para navegação quanto para manipulação, operando em tempo real. Para isso, tratamos a síntese generativa de novas visões como uma tarefa de pré-treinamento e, em seguida, alinhamos os ricos pré-conhecimentos de cena resultantes com a linguagem natural por meio da destilação de características do CLIP. Demonstramos a eficácia dessa abordagem ao implantar o GeFF em um robô quadrúpede equipado com um manipulador. Avaliamos a capacidade do GeFF de generalizar para objetos de conjunto aberto, bem como o tempo de execução, ao realizar manipulação móvel de vocabulário aberto em cenas dinâmicas.
English
An open problem in mobile manipulation is how to represent objects and scenes in a unified manner, so that robots can use it both for navigating in the environment and manipulating objects. The latter requires capturing intricate geometry while understanding fine-grained semantics, whereas the former involves capturing the complexity inherit to an expansive physical scale. In this work, we present GeFF (Generalizable Feature Fields), a scene-level generalizable neural feature field that acts as a unified representation for both navigation and manipulation that performs in real-time. To do so, we treat generative novel view synthesis as a pre-training task, and then align the resulting rich scene priors with natural language via CLIP feature distillation. We demonstrate the effectiveness of this approach by deploying GeFF on a quadrupedal robot equipped with a manipulator. We evaluate GeFF's ability to generalize to open-set objects as well as running time, when performing open-vocabulary mobile manipulation in dynamic scenes.
PDF71February 8, 2026