GNFactor : Apprentissage multitâche sur robots réels avec des champs de caractéristiques neuronaux généralisables
GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields
August 31, 2023
Auteurs: Yanjie Ze, Ge Yan, Yueh-Hua Wu, Annabella Macaluso, Yuying Ge, Jianglong Ye, Nicklas Hansen, Li Erran Li, Xiaolong Wang
cs.AI
Résumé
Développer des agents capables d'exécuter diverses tâches de manipulation à partir d'observations visuelles dans des environnements réels non structurés constitue un problème de longue date en robotique. Pour atteindre cet objectif, le robot doit avoir une compréhension approfondie de la structure 3D et de la sémantique de la scène. Dans ce travail, nous présentons GNFactor, un agent de clonage comportemental visuel pour la manipulation robotique multi-tâches utilisant des Champs de Caractéristiques Neurales Généralisables (Generalizable Neural feature Fields). GNFactor optimise conjointement un champ neural généralisable (GNF) en tant que module de reconstruction et un Perceiver Transformer en tant que module de prise de décision, en s'appuyant sur une représentation voxel 3D profonde partagée. Pour intégrer la sémantique en 3D, le module de reconstruction utilise un modèle de base vision-langage (par exemple, Stable Diffusion) pour distiller des informations sémantiques riches dans le voxel 3D profond. Nous évaluons GNFactor sur 3 tâches de robot réel et effectuons des ablations détaillées sur 10 tâches RLBench avec un nombre limité de démonstrations. Nous observons une amélioration substantielle de GNFactor par rapport aux méthodes actuelles de pointe dans des tâches vues et non vues, démontrant ainsi la forte capacité de généralisation de GNFactor. Notre site web de projet est https://yanjieze.com/GNFactor/.
English
It is a long-standing problem in robotics to develop agents capable of
executing diverse manipulation tasks from visual observations in unstructured
real-world environments. To achieve this goal, the robot needs to have a
comprehensive understanding of the 3D structure and semantics of the scene. In
this work, we present GNFactor, a visual behavior cloning agent for
multi-task robotic manipulation with Generalizable Neural
feature Fields. GNFactor jointly optimizes a generalizable neural
field (GNF) as a reconstruction module and a Perceiver Transformer as a
decision-making module, leveraging a shared deep 3D voxel representation. To
incorporate semantics in 3D, the reconstruction module utilizes a
vision-language foundation model (e.g., Stable Diffusion) to distill
rich semantic information into the deep 3D voxel. We evaluate GNFactor on 3
real robot tasks and perform detailed ablations on 10 RLBench tasks with a
limited number of demonstrations. We observe a substantial improvement of
GNFactor over current state-of-the-art methods in seen and unseen tasks,
demonstrating the strong generalization ability of GNFactor. Our project
website is https://yanjieze.com/GNFactor/ .