ChatPaper.aiChatPaper

GNFactor: Multi-Task-Lernen mit realen Robotern durch generalisierbare neuronale Merkmalsfelder

GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields

August 31, 2023
Autoren: Yanjie Ze, Ge Yan, Yueh-Hua Wu, Annabella Macaluso, Yuying Ge, Jianglong Ye, Nicklas Hansen, Li Erran Li, Xiaolong Wang
cs.AI

Zusammenfassung

Es ist ein langjähriges Problem in der Robotik, Agenten zu entwickeln, die in der Lage sind, vielfältige Manipulationsaufgaben aus visuellen Beobachtungen in unstrukturierten realen Umgebungen auszuführen. Um dieses Ziel zu erreichen, benötigt der Roboter ein umfassendes Verständnis der 3D-Struktur und Semantik der Szene. In dieser Arbeit präsentieren wir GNFactor, einen visuellen Behavior-Cloning-Agenten für multitask-roboterbasierte Manipulation mit Generalisierbaren Neuronalen Merkmalfeldern (Generalizable Neural feature Fields). GNFactor optimiert gemeinsam ein generalisierbares neuronales Feld (GNF) als Rekonstruktionsmodul und einen Perceiver Transformer als Entscheidungsmodul, wobei eine gemeinsame tiefe 3D-Voxel-Darstellung genutzt wird. Um Semantik in 3D zu integrieren, verwendet das Rekonstruktionsmodul ein Vision-Language-Foundation-Modell (z. B. Stable Diffusion), um umfangreiche semantische Informationen in das tiefe 3D-Voxel zu destillieren. Wir evaluieren GNFactor an drei realen Robotertasks und führen detaillierte Ablationen an 10 RLBench-Tasks mit einer begrenzten Anzahl von Demonstrationen durch. Wir beobachten eine erhebliche Verbesserung von GNFactor gegenüber aktuellen State-of-the-Art-Methoden bei bekannten und unbekannten Tasks, was die starke Generalisierungsfähigkeit von GNFactor demonstriert. Unsere Projektwebsite ist https://yanjieze.com/GNFactor/.
English
It is a long-standing problem in robotics to develop agents capable of executing diverse manipulation tasks from visual observations in unstructured real-world environments. To achieve this goal, the robot needs to have a comprehensive understanding of the 3D structure and semantics of the scene. In this work, we present GNFactor, a visual behavior cloning agent for multi-task robotic manipulation with Generalizable Neural feature Fields. GNFactor jointly optimizes a generalizable neural field (GNF) as a reconstruction module and a Perceiver Transformer as a decision-making module, leveraging a shared deep 3D voxel representation. To incorporate semantics in 3D, the reconstruction module utilizes a vision-language foundation model (e.g., Stable Diffusion) to distill rich semantic information into the deep 3D voxel. We evaluate GNFactor on 3 real robot tasks and perform detailed ablations on 10 RLBench tasks with a limited number of demonstrations. We observe a substantial improvement of GNFactor over current state-of-the-art methods in seen and unseen tasks, demonstrating the strong generalization ability of GNFactor. Our project website is https://yanjieze.com/GNFactor/ .
PDF100December 15, 2024