ChatPaper.aiChatPaper

GNFactor: Aprendizaje Multitarea en Robots Reales con Campos de Características Neuronales Generalizables

GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields

August 31, 2023
Autores: Yanjie Ze, Ge Yan, Yueh-Hua Wu, Annabella Macaluso, Yuying Ge, Jianglong Ye, Nicklas Hansen, Li Erran Li, Xiaolong Wang
cs.AI

Resumen

Es un problema de larga data en robótica desarrollar agentes capaces de ejecutar diversas tareas de manipulación a partir de observaciones visuales en entornos reales no estructurados. Para lograr este objetivo, el robot necesita tener una comprensión integral de la estructura 3D y la semántica de la escena. En este trabajo, presentamos GNFactor, un agente de clonación de comportamiento visual para la manipulación robótica multitarea con Campos de Características Neuronales Generalizables (GNF). GNFactor optimiza conjuntamente un campo neuronal generalizable (GNF) como módulo de reconstrucción y un Transformer Perceiver como módulo de toma de decisiones, aprovechando una representación profunda de vóxeles 3D compartida. Para incorporar semántica en 3D, el módulo de reconstrucción utiliza un modelo fundacional de visión y lenguaje (por ejemplo, Stable Diffusion) para destilar información semántica rica en el vóxel 3D profundo. Evaluamos GNFactor en 3 tareas de robot real y realizamos ablaciones detalladas en 10 tareas de RLBench con un número limitado de demostraciones. Observamos una mejora sustancial de GNFactor sobre los métodos actuales más avanzados en tareas vistas y no vistas, demostrando la fuerte capacidad de generalización de GNFactor. Nuestro sitio web del proyecto es https://yanjieze.com/GNFactor/.
English
It is a long-standing problem in robotics to develop agents capable of executing diverse manipulation tasks from visual observations in unstructured real-world environments. To achieve this goal, the robot needs to have a comprehensive understanding of the 3D structure and semantics of the scene. In this work, we present GNFactor, a visual behavior cloning agent for multi-task robotic manipulation with Generalizable Neural feature Fields. GNFactor jointly optimizes a generalizable neural field (GNF) as a reconstruction module and a Perceiver Transformer as a decision-making module, leveraging a shared deep 3D voxel representation. To incorporate semantics in 3D, the reconstruction module utilizes a vision-language foundation model (e.g., Stable Diffusion) to distill rich semantic information into the deep 3D voxel. We evaluate GNFactor on 3 real robot tasks and perform detailed ablations on 10 RLBench tasks with a limited number of demonstrations. We observe a substantial improvement of GNFactor over current state-of-the-art methods in seen and unseen tasks, demonstrating the strong generalization ability of GNFactor. Our project website is https://yanjieze.com/GNFactor/ .
PDF100December 15, 2024