ChatPaper.aiChatPaper

モバイルマニピュレーションのための汎用可能な特徴フィールドの学習

Learning Generalizable Feature Fields for Mobile Manipulation

March 12, 2024
著者: Ri-Zhao Qiu, Yafei Hu, Ge Yang, Yuchen Song, Yang Fu, Jianglong Ye, Jiteng Mu, Ruihan Yang, Nikolay Atanasov, Sebastian Scherer, Xiaolong Wang
cs.AI

要旨

モバイルマニピュレーションにおける未解決の問題の一つは、環境内を移動するためのナビゲーションと物体を操作するためのマニピュレーションの両方に利用できる統一的な方法で物体やシーンを表現することです。後者には微細な幾何学を捉えつつ、細かい粒度の意味を理解することが求められる一方、前者には広大な物理的スケールに内在する複雑さを捉えることが必要です。本研究では、GeFF(Generalizable Feature Fields)を提案します。これは、ナビゲーションとマニピュレーションの両方に利用できる統一的な表現として機能するシーンレベルの汎用化可能なニューラル特徴フィールドであり、リアルタイムで動作します。これを実現するために、生成的ノベルビュー合成を事前学習タスクとして扱い、その結果得られる豊富なシーンプライアをCLIP特徴蒸留を通じて自然言語と整合させます。マニピュレータを装備した四足歩行ロボットにGeFFを導入し、動的なシーンにおけるオープン語彙モバイルマニピュレーションにおいて、GeFFがオープンセットの物体に汎化する能力と実行時間を評価することで、このアプローチの有効性を実証します。
English
An open problem in mobile manipulation is how to represent objects and scenes in a unified manner, so that robots can use it both for navigating in the environment and manipulating objects. The latter requires capturing intricate geometry while understanding fine-grained semantics, whereas the former involves capturing the complexity inherit to an expansive physical scale. In this work, we present GeFF (Generalizable Feature Fields), a scene-level generalizable neural feature field that acts as a unified representation for both navigation and manipulation that performs in real-time. To do so, we treat generative novel view synthesis as a pre-training task, and then align the resulting rich scene priors with natural language via CLIP feature distillation. We demonstrate the effectiveness of this approach by deploying GeFF on a quadrupedal robot equipped with a manipulator. We evaluate GeFF's ability to generalize to open-set objects as well as running time, when performing open-vocabulary mobile manipulation in dynamic scenes.

Summary

AI-Generated Summary

PDF81December 15, 2024