Les champs de caractéristiques distillés permettent une manipulation guidée par le langage en peu d'exemples.
Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation
July 27, 2023
Auteurs: William Shen, Ge Yang, Alan Yu, Jansen Wong, Leslie Pack Kaelbling, Phillip Isola
cs.AI
Résumé
Les modèles d'images auto-supervisés et supervisés par le langage contiennent une connaissance riche du monde, essentielle pour la généralisation. Cependant, de nombreuses tâches robotiques nécessitent une compréhension détaillée de la géométrie 3D, souvent absente dans les caractéristiques d'images 2D. Ce travail comble ce fossé entre 2D et 3D pour la manipulation robotique en exploitant des champs de caractéristiques distillés pour combiner une géométrie 3D précise avec une sémantique riche provenant de modèles de base 2D. Nous présentons une méthode d'apprentissage en quelques essais pour la préhension et le placement à 6 degrés de liberté, qui tire parti de ces forts a priori spatiaux et sémantiques pour atteindre une généralisation en conditions réelles sur des objets non vus. En utilisant des caractéristiques distillées d'un modèle vision-langage, CLIP, nous proposons une manière de désigner de nouveaux objets pour la manipulation via du texte naturel libre, et démontrons sa capacité à généraliser à des expressions non vues et à des catégories d'objets nouvelles.
English
Self-supervised and language-supervised image models contain rich knowledge
of the world that is important for generalization. Many robotic tasks, however,
require a detailed understanding of 3D geometry, which is often lacking in 2D
image features. This work bridges this 2D-to-3D gap for robotic manipulation by
leveraging distilled feature fields to combine accurate 3D geometry with rich
semantics from 2D foundation models. We present a few-shot learning method for
6-DOF grasping and placing that harnesses these strong spatial and semantic
priors to achieve in-the-wild generalization to unseen objects. Using features
distilled from a vision-language model, CLIP, we present a way to designate
novel objects for manipulation via free-text natural language, and demonstrate
its ability to generalize to unseen expressions and novel categories of
objects.