GNFactor: Многозадачное обучение реальных роботов с использованием обобщаемых нейронных полей признаков
GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields
August 31, 2023
Авторы: Yanjie Ze, Ge Yan, Yueh-Hua Wu, Annabella Macaluso, Yuying Ge, Jianglong Ye, Nicklas Hansen, Li Erran Li, Xiaolong Wang
cs.AI
Аннотация
Разработка агентов, способных выполнять разнообразные манипуляционные задачи на основе визуальных наблюдений в неструктурированных реальных условиях, является давней проблемой в робототехнике. Для достижения этой цели робот должен обладать всесторонним пониманием трехмерной структуры и семантики сцены. В данной работе мы представляем GNFactor — агента для визуального клонирования поведения, предназначенного для многозадачной роботизированной манипуляции с использованием Обобщаемых Нейронных Полевых Признаков. GNFactor совместно оптимизирует обобщаемое нейронное поле (GNF) в качестве модуля реконструкции и Perceiver Transformer в качестве модуля принятия решений, используя общее глубокое трехмерное воксельное представление. Для включения семантики в 3D модуль реконструкции использует базовую модель компьютерного зрения и языка (например, Stable Diffusion) для извлечения богатой семантической информации в глубокое трехмерное воксельное пространство. Мы оцениваем GNFactor на трех задачах с реальным роботом и проводим детальные исследования на 10 задачах RLBench с ограниченным количеством демонстраций. Мы наблюдаем значительное улучшение GNFactor по сравнению с современными методами как в известных, так и в новых задачах, что демонстрирует сильную способность к обобщению. Наш проект доступен по адресу: https://yanjieze.com/GNFactor/.
English
It is a long-standing problem in robotics to develop agents capable of
executing diverse manipulation tasks from visual observations in unstructured
real-world environments. To achieve this goal, the robot needs to have a
comprehensive understanding of the 3D structure and semantics of the scene. In
this work, we present GNFactor, a visual behavior cloning agent for
multi-task robotic manipulation with Generalizable Neural
feature Fields. GNFactor jointly optimizes a generalizable neural
field (GNF) as a reconstruction module and a Perceiver Transformer as a
decision-making module, leveraging a shared deep 3D voxel representation. To
incorporate semantics in 3D, the reconstruction module utilizes a
vision-language foundation model (e.g., Stable Diffusion) to distill
rich semantic information into the deep 3D voxel. We evaluate GNFactor on 3
real robot tasks and perform detailed ablations on 10 RLBench tasks with a
limited number of demonstrations. We observe a substantial improvement of
GNFactor over current state-of-the-art methods in seen and unseen tasks,
demonstrating the strong generalization ability of GNFactor. Our project
website is https://yanjieze.com/GNFactor/ .