ChatPaper.aiChatPaper

GNFactor: Multi-Task Real Robot Leren met Generaliseerbare Neurale Kenmerkvelden

GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields

August 31, 2023
Auteurs: Yanjie Ze, Ge Yan, Yueh-Hua Wu, Annabella Macaluso, Yuying Ge, Jianglong Ye, Nicklas Hansen, Li Erran Li, Xiaolong Wang
cs.AI

Samenvatting

Het is een lang bestaand probleem in de robotica om agents te ontwikkelen die in staat zijn diverse manipulatie taken uit te voeren op basis van visuele observaties in ongestructureerde, real-world omgevingen. Om dit doel te bereiken, moet de robot een uitgebreid begrip hebben van de 3D-structuur en semantiek van de scène. In dit werk presenteren we GNFactor, een visueel gedragskopieer agent voor multi-task robot manipulatie met Generaliseerbare Neurale Feature Velden. GNFactor optimaliseert gezamenlijk een generaliseerbaar neuraal veld (GNF) als reconstructiemodule en een Perceiver Transformer als besluitvormingsmodule, waarbij gebruik wordt gemaakt van een gedeelde diepe 3D voxel representatie. Om semantiek in 3D te integreren, maakt de reconstructiemodule gebruik van een vision-language foundation model (bijvoorbeeld Stable Diffusion) om rijke semantische informatie te destilleren in de diepe 3D voxel. We evalueren GNFactor op 3 echte robot taken en voeren gedetailleerde ablatie studies uit op 10 RLBench taken met een beperkt aantal demonstraties. We observeren een aanzienlijke verbetering van GNFactor ten opzichte van de huidige state-of-the-art methoden in zowel bekende als onbekende taken, wat de sterke generalisatiecapaciteit van GNFactor aantoont. Onze projectwebsite is https://yanjieze.com/GNFactor/.
English
It is a long-standing problem in robotics to develop agents capable of executing diverse manipulation tasks from visual observations in unstructured real-world environments. To achieve this goal, the robot needs to have a comprehensive understanding of the 3D structure and semantics of the scene. In this work, we present GNFactor, a visual behavior cloning agent for multi-task robotic manipulation with Generalizable Neural feature Fields. GNFactor jointly optimizes a generalizable neural field (GNF) as a reconstruction module and a Perceiver Transformer as a decision-making module, leveraging a shared deep 3D voxel representation. To incorporate semantics in 3D, the reconstruction module utilizes a vision-language foundation model (e.g., Stable Diffusion) to distill rich semantic information into the deep 3D voxel. We evaluate GNFactor on 3 real robot tasks and perform detailed ablations on 10 RLBench tasks with a limited number of demonstrations. We observe a substantial improvement of GNFactor over current state-of-the-art methods in seen and unseen tasks, demonstrating the strong generalization ability of GNFactor. Our project website is https://yanjieze.com/GNFactor/ .
PDF100February 9, 2026