ChatPaper.aiChatPaper

Destillierte Merkmalsfelder ermöglichen sprachgesteuerte Manipulation mit wenigen Beispielen

Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation

July 27, 2023
Autoren: William Shen, Ge Yang, Alan Yu, Jansen Wong, Leslie Pack Kaelbling, Phillip Isola
cs.AI

Zusammenfassung

Selbstüberwachte und sprachüberwachte Bildmodelle enthalten umfangreiches Wissen über die Welt, das für die Generalisierung entscheidend ist. Viele robotische Aufgaben erfordern jedoch ein detailliertes Verständnis der 3D-Geometrie, das in 2D-Bildmerkmalen oft fehlt. Diese Arbeit überbrückt diese 2D-zu-3D-Lücke für die robotische Manipulation, indem sie destillierte Merkmalsfelder nutzt, um präzise 3D-Geometrie mit reicher Semantik aus 2D-Foundation-Modellen zu kombinieren. Wir präsentieren eine Few-Shot-Lernmethode für 6-DOF-Greifen und Platzieren, die diese starken räumlichen und semantischen Vorinformationen nutzt, um eine Generalisierung auf unbekannte Objekte in realen Umgebungen zu erreichen. Unter Verwendung von Merkmalen, die aus einem Vision-Language-Modell, CLIP, destilliert wurden, zeigen wir eine Methode zur Bezeichnung neuer Objekte für die Manipulation mittels Freitext-Natursprache und demonstrieren deren Fähigkeit, auf unbekannte Ausdrücke und neue Objektkategorien zu generalisieren.
English
Self-supervised and language-supervised image models contain rich knowledge of the world that is important for generalization. Many robotic tasks, however, require a detailed understanding of 3D geometry, which is often lacking in 2D image features. This work bridges this 2D-to-3D gap for robotic manipulation by leveraging distilled feature fields to combine accurate 3D geometry with rich semantics from 2D foundation models. We present a few-shot learning method for 6-DOF grasping and placing that harnesses these strong spatial and semantic priors to achieve in-the-wild generalization to unseen objects. Using features distilled from a vision-language model, CLIP, we present a way to designate novel objects for manipulation via free-text natural language, and demonstrate its ability to generalize to unseen expressions and novel categories of objects.
PDF80December 15, 2024