蒸留された特徴フィールドによる少数事例での言語誘導マニピュレーションの実現
Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation
July 27, 2023
著者: William Shen, Ge Yang, Alan Yu, Jansen Wong, Leslie Pack Kaelbling, Phillip Isola
cs.AI
要旨
自己教師あり学習および言語教師あり学習の画像モデルは、汎化に重要な世界に関する豊富な知識を含んでいます。しかしながら、多くのロボットタスクには3Dジオメトリの詳細な理解が求められ、これは2D画像特徴では往々にして不足しています。本研究は、蒸留された特徴フィールドを活用して、正確な3Dジオメトリと2D基盤モデルからの豊富な意味情報を統合することで、ロボットマニピュレーションにおける2D-3D間の隔たりを埋めます。我々は、これらの強力な空間的・意味的事前情報を活用して未見の物体への実世界汎化を達成する6自由度把持・配置の少数ショット学習手法を提案します。視覚言語モデルCLIPから蒸留した特徴を利用し、自由記述の自然言語を通じて操作対象の新規物体を指定する手法を提示し、未見の表現や新規カテゴリの物体への汎化能力を実証します。
English
Self-supervised and language-supervised image models contain rich knowledge
of the world that is important for generalization. Many robotic tasks, however,
require a detailed understanding of 3D geometry, which is often lacking in 2D
image features. This work bridges this 2D-to-3D gap for robotic manipulation by
leveraging distilled feature fields to combine accurate 3D geometry with rich
semantics from 2D foundation models. We present a few-shot learning method for
6-DOF grasping and placing that harnesses these strong spatial and semantic
priors to achieve in-the-wild generalization to unseen objects. Using features
distilled from a vision-language model, CLIP, we present a way to designate
novel objects for manipulation via free-text natural language, and demonstrate
its ability to generalize to unseen expressions and novel categories of
objects.