Los Campos de Características Destilados Habilitan la Manipulación Guiada por Lenguaje con Pocos Ejemplos
Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation
July 27, 2023
Autores: William Shen, Ge Yang, Alan Yu, Jansen Wong, Leslie Pack Kaelbling, Phillip Isola
cs.AI
Resumen
Los modelos de imágenes auto-supervisados y supervisados por lenguaje contienen un conocimiento rico del mundo que es importante para la generalización. Sin embargo, muchas tareas robóticas requieren una comprensión detallada de la geometría 3D, que a menudo falta en las características de imágenes 2D. Este trabajo cierra esta brecha 2D-3D para la manipulación robótica al aprovechar campos de características destilados para combinar una geometría 3D precisa con una semántica rica proveniente de modelos fundamentales 2D. Presentamos un método de aprendizaje con pocos ejemplos para el agarre y colocación en 6 grados de libertad que utiliza estos fuertes antecedentes espaciales y semánticos para lograr una generalización en entornos no controlados hacia objetos no vistos. Utilizando características destiladas de un modelo de visión-lenguaje, CLIP, presentamos una forma de designar objetos nuevos para manipulación mediante lenguaje natural en texto libre, y demostramos su capacidad para generalizar a expresiones no vistas y nuevas categorías de objetos.
English
Self-supervised and language-supervised image models contain rich knowledge
of the world that is important for generalization. Many robotic tasks, however,
require a detailed understanding of 3D geometry, which is often lacking in 2D
image features. This work bridges this 2D-to-3D gap for robotic manipulation by
leveraging distilled feature fields to combine accurate 3D geometry with rich
semantics from 2D foundation models. We present a few-shot learning method for
6-DOF grasping and placing that harnesses these strong spatial and semantic
priors to achieve in-the-wild generalization to unseen objects. Using features
distilled from a vision-language model, CLIP, we present a way to designate
novel objects for manipulation via free-text natural language, and demonstrate
its ability to generalize to unseen expressions and novel categories of
objects.