Дистиллированные поля признаков обеспечивают манипуляции с использованием языка в условиях ограниченного числа примеров.
Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation
July 27, 2023
Авторы: William Shen, Ge Yang, Alan Yu, Jansen Wong, Leslie Pack Kaelbling, Phillip Isola
cs.AI
Аннотация
Модели изображений, обученные с самоконтролем и с использованием языковых данных, содержат богатые знания о мире, которые важны для обобщения. Однако многие задачи в робототехнике требуют детального понимания трехмерной геометрии, что часто отсутствует в двумерных признаках изображений. Данная работа преодолевает этот разрыв между 2D и 3D для задач манипуляции роботов, используя дистиллированные поля признаков для объединения точной 3D-геометрии с богатой семантикой из базовых 2D-моделей. Мы представляем метод обучения с малым количеством примеров для захвата и размещения с шестью степенями свободы, который использует эти сильные пространственные и семантические априорные знания для достижения обобщения в реальных условиях на невидимые объекты. Используя признаки, дистиллированные из языковой модели CLIP, мы предлагаем способ задания новых объектов для манипуляции с помощью свободного текста на естественном языке и демонстрируем его способность обобщаться на незнакомые выражения и новые категории объектов.
English
Self-supervised and language-supervised image models contain rich knowledge
of the world that is important for generalization. Many robotic tasks, however,
require a detailed understanding of 3D geometry, which is often lacking in 2D
image features. This work bridges this 2D-to-3D gap for robotic manipulation by
leveraging distilled feature fields to combine accurate 3D geometry with rich
semantics from 2D foundation models. We present a few-shot learning method for
6-DOF grasping and placing that harnesses these strong spatial and semantic
priors to achieve in-the-wild generalization to unseen objects. Using features
distilled from a vision-language model, CLIP, we present a way to designate
novel objects for manipulation via free-text natural language, and demonstrate
its ability to generalize to unseen expressions and novel categories of
objects.