ChatPaper.aiChatPaper

GNFactor: Многозадачное обучение реальных роботов с использованием обобщаемых нейронных полей признаков

GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields

August 31, 2023
Авторы: Yanjie Ze, Ge Yan, Yueh-Hua Wu, Annabella Macaluso, Yuying Ge, Jianglong Ye, Nicklas Hansen, Li Erran Li, Xiaolong Wang
cs.AI

Аннотация

Разработка агентов, способных выполнять разнообразные манипуляционные задачи на основе визуальных наблюдений в неструктурированных реальных условиях, является давней проблемой в робототехнике. Для достижения этой цели робот должен обладать всесторонним пониманием трехмерной структуры и семантики сцены. В данной работе мы представляем GNFactor — агента для визуального клонирования поведения, предназначенного для многозадачной роботизированной манипуляции с использованием Обобщаемых Нейронных Полевых Признаков. GNFactor совместно оптимизирует обобщаемое нейронное поле (GNF) в качестве модуля реконструкции и Perceiver Transformer в качестве модуля принятия решений, используя общее глубокое трехмерное воксельное представление. Для включения семантики в 3D модуль реконструкции использует базовую модель компьютерного зрения и языка (например, Stable Diffusion) для извлечения богатой семантической информации в глубокое трехмерное воксельное пространство. Мы оцениваем GNFactor на трех задачах с реальным роботом и проводим детальные исследования на 10 задачах RLBench с ограниченным количеством демонстраций. Мы наблюдаем значительное улучшение GNFactor по сравнению с современными методами как в известных, так и в новых задачах, что демонстрирует сильную способность к обобщению. Наш проект доступен по адресу: https://yanjieze.com/GNFactor/.
English
It is a long-standing problem in robotics to develop agents capable of executing diverse manipulation tasks from visual observations in unstructured real-world environments. To achieve this goal, the robot needs to have a comprehensive understanding of the 3D structure and semantics of the scene. In this work, we present GNFactor, a visual behavior cloning agent for multi-task robotic manipulation with Generalizable Neural feature Fields. GNFactor jointly optimizes a generalizable neural field (GNF) as a reconstruction module and a Perceiver Transformer as a decision-making module, leveraging a shared deep 3D voxel representation. To incorporate semantics in 3D, the reconstruction module utilizes a vision-language foundation model (e.g., Stable Diffusion) to distill rich semantic information into the deep 3D voxel. We evaluate GNFactor on 3 real robot tasks and perform detailed ablations on 10 RLBench tasks with a limited number of demonstrations. We observe a substantial improvement of GNFactor over current state-of-the-art methods in seen and unseen tasks, demonstrating the strong generalization ability of GNFactor. Our project website is https://yanjieze.com/GNFactor/ .
PDF100December 15, 2024