ChatPaper.aiChatPaper

Les champs de caractéristiques distillés permettent une manipulation guidée par le langage en peu d'exemples.

Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation

July 27, 2023
Auteurs: William Shen, Ge Yang, Alan Yu, Jansen Wong, Leslie Pack Kaelbling, Phillip Isola
cs.AI

Résumé

Les modèles d'images auto-supervisés et supervisés par le langage contiennent une connaissance riche du monde, essentielle pour la généralisation. Cependant, de nombreuses tâches robotiques nécessitent une compréhension détaillée de la géométrie 3D, souvent absente dans les caractéristiques d'images 2D. Ce travail comble ce fossé entre 2D et 3D pour la manipulation robotique en exploitant des champs de caractéristiques distillés pour combiner une géométrie 3D précise avec une sémantique riche provenant de modèles de base 2D. Nous présentons une méthode d'apprentissage en quelques essais pour la préhension et le placement à 6 degrés de liberté, qui tire parti de ces forts a priori spatiaux et sémantiques pour atteindre une généralisation en conditions réelles sur des objets non vus. En utilisant des caractéristiques distillées d'un modèle vision-langage, CLIP, nous proposons une manière de désigner de nouveaux objets pour la manipulation via du texte naturel libre, et démontrons sa capacité à généraliser à des expressions non vues et à des catégories d'objets nouvelles.
English
Self-supervised and language-supervised image models contain rich knowledge of the world that is important for generalization. Many robotic tasks, however, require a detailed understanding of 3D geometry, which is often lacking in 2D image features. This work bridges this 2D-to-3D gap for robotic manipulation by leveraging distilled feature fields to combine accurate 3D geometry with rich semantics from 2D foundation models. We present a few-shot learning method for 6-DOF grasping and placing that harnesses these strong spatial and semantic priors to achieve in-the-wild generalization to unseen objects. Using features distilled from a vision-language model, CLIP, we present a way to designate novel objects for manipulation via free-text natural language, and demonstrate its ability to generalize to unseen expressions and novel categories of objects.
PDF80December 15, 2024