Los Campos de Características Destilados Habilitan la Manipulación Guiada por Lenguaje con Pocos Ejemplos

Resumen

Los modelos de imágenes auto-supervisados y supervisados por lenguaje contienen un conocimiento rico del mundo que es importante para la generalización. Sin embargo, muchas tareas robóticas requieren una comprensión detallada de la geometría 3D, que a menudo falta en las características de imágenes 2D. Este trabajo cierra esta brecha 2D-3D para la manipulación robótica al aprovechar campos de características destilados para combinar una geometría 3D precisa con una semántica rica proveniente de modelos fundamentales 2D. Presentamos un método de aprendizaje con pocos ejemplos para el agarre y colocación en 6 grados de libertad que utiliza estos fuertes antecedentes espaciales y semánticos para lograr una generalización en entornos no controlados hacia objetos no vistos. Utilizando características destiladas de un modelo de visión-lenguaje, CLIP, presentamos una forma de designar objetos nuevos para manipulación mediante lenguaje natural en texto libre, y demostramos su capacidad para generalizar a expresiones no vistas y nuevas categorías de objetos.

English

Self-supervised and language-supervised image models contain rich knowledge of the world that is important for generalization. Many robotic tasks, however, require a detailed understanding of 3D geometry, which is often lacking in 2D image features. This work bridges this 2D-to-3D gap for robotic manipulation by leveraging distilled feature fields to combine accurate 3D geometry with rich semantics from 2D foundation models. We present a few-shot learning method for 6-DOF grasping and placing that harnesses these strong spatial and semantic priors to achieve in-the-wild generalization to unseen objects. Using features distilled from a vision-language model, CLIP, we present a way to designate novel objects for manipulation via free-text natural language, and demonstrate its ability to generalize to unseen expressions and novel categories of objects.

Los Campos de Características Destilados Habilitan la Manipulación Guiada por Lenguaje con Pocos Ejemplos

Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation

Resumen

Support