GNFactor: Apprendimento Multi-Task su Robot Reali con Campi di Caratteristiche Neurali Generalizzabili

Abstract

È un problema di lunga data nella robotica sviluppare agenti in grado di eseguire una varietà di compiti di manipolazione basandosi su osservazioni visive in ambienti reali non strutturati. Per raggiungere questo obiettivo, il robot deve avere una comprensione completa della struttura 3D e della semantica della scena. In questo lavoro, presentiamo GNFactor, un agente di clonazione comportamentale visiva per la manipolazione robotica multi-task con Campi Neurali Generalizzabili (Generalizable Neural feature Fields). GNFactor ottimizza congiuntamente un campo neurale generalizzabile (GNF) come modulo di ricostruzione e un Perceiver Transformer come modulo decisionale, sfruttando una rappresentazione 3D profonda condivisa basata su voxel. Per incorporare la semantica in 3D, il modulo di ricostruzione utilizza un modello di fondazione visione-linguaggio (ad esempio, Stable Diffusion) per distillare ricche informazioni semantiche nel voxel 3D profondo. Valutiamo GNFactor su 3 compiti con robot reali e eseguiamo ablazioni dettagliate su 10 compiti di RLBench con un numero limitato di dimostrazioni. Osserviamo un miglioramento sostanziale di GNFactor rispetto ai metodi attuali all'avanguardia sia in compiti noti che sconosciuti, dimostrando la forte capacità di generalizzazione di GNFactor. Il sito web del nostro progetto è https://yanjieze.com/GNFactor/.

English

It is a long-standing problem in robotics to develop agents capable of executing diverse manipulation tasks from visual observations in unstructured real-world environments. To achieve this goal, the robot needs to have a comprehensive understanding of the 3D structure and semantics of the scene. In this work, we present GNFactor, a visual behavior cloning agent for multi-task robotic manipulation with Generalizable Neural feature Fields. GNFactor jointly optimizes a generalizable neural field (GNF) as a reconstruction module and a Perceiver Transformer as a decision-making module, leveraging a shared deep 3D voxel representation. To incorporate semantics in 3D, the reconstruction module utilizes a vision-language foundation model (e.g., Stable Diffusion) to distill rich semantic information into the deep 3D voxel. We evaluate GNFactor on 3 real robot tasks and perform detailed ablations on 10 RLBench tasks with a limited number of demonstrations. We observe a substantial improvement of GNFactor over current state-of-the-art methods in seen and unseen tasks, demonstrating the strong generalization ability of GNFactor. Our project website is https://yanjieze.com/GNFactor/ .

GNFactor: Apprendimento Multi-Task su Robot Reali con Campi di Caratteristiche Neurali Generalizzabili

GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields

Abstract

Support