I Campi di Caratteristiche Distillati Abilitano la Manipolazione Guidata dal Linguaggio con Pochi Esempi

Abstract

I modelli di immagini auto-supervisionati e supervisionati dal linguaggio contengono una ricca conoscenza del mondo che è cruciale per la generalizzazione. Tuttavia, molte attività robotiche richiedono una comprensione dettagliata della geometria 3D, che spesso manca nelle caratteristiche delle immagini 2D. Questo lavoro colma il divario tra 2D e 3D per la manipolazione robotica sfruttando campi di caratteristiche distillati per combinare una geometria 3D precisa con una semantica ricca proveniente da modelli di base 2D. Presentiamo un metodo di apprendimento con pochi esempi per la presa e il posizionamento a 6 gradi di libertà che sfrutta questi forti preconcetti spaziali e semantici per ottenere una generalizzazione in contesti reali su oggetti mai visti. Utilizzando caratteristiche distillate da un modello visione-linguaggio, CLIP, presentiamo un modo per designare nuovi oggetti per la manipolazione tramite linguaggio naturale in testo libero, e dimostriamo la sua capacità di generalizzare a espressioni non viste e a nuove categorie di oggetti.

English

Self-supervised and language-supervised image models contain rich knowledge of the world that is important for generalization. Many robotic tasks, however, require a detailed understanding of 3D geometry, which is often lacking in 2D image features. This work bridges this 2D-to-3D gap for robotic manipulation by leveraging distilled feature fields to combine accurate 3D geometry with rich semantics from 2D foundation models. We present a few-shot learning method for 6-DOF grasping and placing that harnesses these strong spatial and semantic priors to achieve in-the-wild generalization to unseen objects. Using features distilled from a vision-language model, CLIP, we present a way to designate novel objects for manipulation via free-text natural language, and demonstrate its ability to generalize to unseen expressions and novel categories of objects.

I Campi di Caratteristiche Distillati Abilitano la Manipolazione Guidata dal Linguaggio con Pochi Esempi

Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation

Abstract

Support