GNFactor : Apprentissage multitâche sur robots réels avec des champs de caractéristiques neuronaux généralisables

papers.abstract

Développer des agents capables d'exécuter diverses tâches de manipulation à partir d'observations visuelles dans des environnements réels non structurés constitue un problème de longue date en robotique. Pour atteindre cet objectif, le robot doit avoir une compréhension approfondie de la structure 3D et de la sémantique de la scène. Dans ce travail, nous présentons GNFactor, un agent de clonage comportemental visuel pour la manipulation robotique multi-tâches utilisant des Champs de Caractéristiques Neurales Généralisables (Generalizable Neural feature Fields). GNFactor optimise conjointement un champ neural généralisable (GNF) en tant que module de reconstruction et un Perceiver Transformer en tant que module de prise de décision, en s'appuyant sur une représentation voxel 3D profonde partagée. Pour intégrer la sémantique en 3D, le module de reconstruction utilise un modèle de base vision-langage (par exemple, Stable Diffusion) pour distiller des informations sémantiques riches dans le voxel 3D profond. Nous évaluons GNFactor sur 3 tâches de robot réel et effectuons des ablations détaillées sur 10 tâches RLBench avec un nombre limité de démonstrations. Nous observons une amélioration substantielle de GNFactor par rapport aux méthodes actuelles de pointe dans des tâches vues et non vues, démontrant ainsi la forte capacité de généralisation de GNFactor. Notre site web de projet est https://yanjieze.com/GNFactor/.

English

It is a long-standing problem in robotics to develop agents capable of executing diverse manipulation tasks from visual observations in unstructured real-world environments. To achieve this goal, the robot needs to have a comprehensive understanding of the 3D structure and semantics of the scene. In this work, we present GNFactor, a visual behavior cloning agent for multi-task robotic manipulation with Generalizable Neural feature Fields. GNFactor jointly optimizes a generalizable neural field (GNF) as a reconstruction module and a Perceiver Transformer as a decision-making module, leveraging a shared deep 3D voxel representation. To incorporate semantics in 3D, the reconstruction module utilizes a vision-language foundation model (e.g., Stable Diffusion) to distill rich semantic information into the deep 3D voxel. We evaluate GNFactor on 3 real robot tasks and perform detailed ablations on 10 RLBench tasks with a limited number of demonstrations. We observe a substantial improvement of GNFactor over current state-of-the-art methods in seen and unseen tasks, demonstrating the strong generalization ability of GNFactor. Our project website is https://yanjieze.com/GNFactor/ .

GNFactor : Apprentissage multitâche sur robots réels avec des champs de caractéristiques neuronaux généralisables

GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields

papers.abstract

Support