ChatPaper.aiChatPaper

Het leren van generaliseerbare kenmerkvelden voor mobiele manipulatie

Learning Generalizable Feature Fields for Mobile Manipulation

March 12, 2024
Auteurs: Ri-Zhao Qiu, Yafei Hu, Ge Yang, Yuchen Song, Yang Fu, Jianglong Ye, Jiteng Mu, Ruihan Yang, Nikolay Atanasov, Sebastian Scherer, Xiaolong Wang
cs.AI

Samenvatting

Een open probleem in mobiele manipulatie is hoe objecten en scènes op een uniforme manier te representeren, zodat robots deze zowel kunnen gebruiken voor navigatie in de omgeving als voor het manipuleren van objecten. Het laatste vereist het vastleggen van complexe geometrie terwijl fijnmazige semantiek wordt begrepen, terwijl het eerste het vastleggen van de complexiteit inhoudt die inherent is aan een uitgebreide fysieke schaal. In dit werk presenteren we GeFF (Generalizable Feature Fields), een scene-level generaliseerbaar neuraal kenmerkveld dat fungeert als een uniforme representatie voor zowel navigatie als manipulatie en in realtime presteert. Hiervoor behandelen we generatieve novel view synthesis als een voorafgaande taak en aligneren we de resulterende rijke scenepriors met natuurlijke taal via CLIP-kenmerkdistillatie. We demonstreren de effectiviteit van deze aanpak door GeFF te implementeren op een viervoetige robot uitgerust met een manipulator. We evalueren het vermogen van GeFF om te generaliseren naar open-set objecten, evenals de uitvoeringstijd, bij het uitvoeren van open-vocabulary mobiele manipulatie in dynamische scènes.
English
An open problem in mobile manipulation is how to represent objects and scenes in a unified manner, so that robots can use it both for navigating in the environment and manipulating objects. The latter requires capturing intricate geometry while understanding fine-grained semantics, whereas the former involves capturing the complexity inherit to an expansive physical scale. In this work, we present GeFF (Generalizable Feature Fields), a scene-level generalizable neural feature field that acts as a unified representation for both navigation and manipulation that performs in real-time. To do so, we treat generative novel view synthesis as a pre-training task, and then align the resulting rich scene priors with natural language via CLIP feature distillation. We demonstrate the effectiveness of this approach by deploying GeFF on a quadrupedal robot equipped with a manipulator. We evaluate GeFF's ability to generalize to open-set objects as well as running time, when performing open-vocabulary mobile manipulation in dynamic scenes.
PDF71February 8, 2026