ChatPaper.aiChatPaper

GNFactor: Aprendizado de Robôs Reais com Tarefas Múltiplas Usando Campos de Características Neurais Generalizáveis

GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields

August 31, 2023
Autores: Yanjie Ze, Ge Yan, Yueh-Hua Wu, Annabella Macaluso, Yuying Ge, Jianglong Ye, Nicklas Hansen, Li Erran Li, Xiaolong Wang
cs.AI

Resumo

É um problema de longa data na robótica desenvolver agentes capazes de executar diversas tarefas de manipulação a partir de observações visuais em ambientes reais não estruturados. Para alcançar esse objetivo, o robô precisa ter um entendimento abrangente da estrutura 3D e da semântica da cena. Neste trabalho, apresentamos o GNFactor, um agente de clonagem comportamental visual para manipulação robótica multitarefa com Campos de Características Neurais Generalizáveis. O GNFactor otimiza conjuntamente um campo neural generalizável (GNF) como módulo de reconstrução e um Perceiver Transformer como módulo de tomada de decisão, aproveitando uma representação de voxel 3D profunda compartilhada. Para incorporar semântica em 3D, o módulo de reconstrução utiliza um modelo de base visão-linguagem (por exemplo, Stable Diffusion) para destilar informações semânticas ricas no voxel 3D profundo. Avaliamos o GNFactor em 3 tarefas reais de robô e realizamos ablações detalhadas em 10 tarefas do RLBench com um número limitado de demonstrações. Observamos uma melhoria substancial do GNFactor em relação aos métodos state-of-the-art atuais em tarefas conhecidas e desconhecidas, demonstrando a forte capacidade de generalização do GNFactor. O site do nosso projeto é https://yanjieze.com/GNFactor/.
English
It is a long-standing problem in robotics to develop agents capable of executing diverse manipulation tasks from visual observations in unstructured real-world environments. To achieve this goal, the robot needs to have a comprehensive understanding of the 3D structure and semantics of the scene. In this work, we present GNFactor, a visual behavior cloning agent for multi-task robotic manipulation with Generalizable Neural feature Fields. GNFactor jointly optimizes a generalizable neural field (GNF) as a reconstruction module and a Perceiver Transformer as a decision-making module, leveraging a shared deep 3D voxel representation. To incorporate semantics in 3D, the reconstruction module utilizes a vision-language foundation model (e.g., Stable Diffusion) to distill rich semantic information into the deep 3D voxel. We evaluate GNFactor on 3 real robot tasks and perform detailed ablations on 10 RLBench tasks with a limited number of demonstrations. We observe a substantial improvement of GNFactor over current state-of-the-art methods in seen and unseen tasks, demonstrating the strong generalization ability of GNFactor. Our project website is https://yanjieze.com/GNFactor/ .
PDF100February 9, 2026