蒸留特徴フィールドによる少数ショット言語誘導マニピュレーションの実現
Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation
July 27, 2023
著者: William Shen, Ge Yang, Alan Yu, Jansen Wong, Leslie Pack Kaelbling, Phillip Isola
cs.AI
要旨
自己教師あり学習および言語教師あり学習の画像モデルは、一般化に重要な世界に関する豊富な知識を含んでいます。しかしながら、多くのロボットタスクでは3次元形状の詳細な理解が必要とされますが、これは2次元画像特徴では往々にして不足しています。本研究は、蒸留された特徴フィールドを活用して、正確な3次元形状と2次元基盤モデルから得られる豊富な意味情報を統合することで、ロボットマニピュレーションにおける2次元-3次元間の隔たりを埋めます。我々は、これらの強力な空間的・意味的事前情報を活用して、未見の物体に対する実環境での一般化を実現する、6自由度把持・配置のための少数ショット学習手法を提案します。視覚言語モデルCLIPから蒸留した特徴を利用し、自由記述の自然言語を通じて操作対象の新規物体を指定する方法を示し、未見の表現や新規カテゴリの物体への一般化能力を実証します。
English
Self-supervised and language-supervised image models contain rich knowledge
of the world that is important for generalization. Many robotic tasks, however,
require a detailed understanding of 3D geometry, which is often lacking in 2D
image features. This work bridges this 2D-to-3D gap for robotic manipulation by
leveraging distilled feature fields to combine accurate 3D geometry with rich
semantics from 2D foundation models. We present a few-shot learning method for
6-DOF grasping and placing that harnesses these strong spatial and semantic
priors to achieve in-the-wild generalization to unseen objects. Using features
distilled from a vision-language model, CLIP, we present a way to designate
novel objects for manipulation via free-text natural language, and demonstrate
its ability to generalize to unseen expressions and novel categories of
objects.