Neubetrachtung der Wahrnehmung von Gelenkteilen in der Robotermanipulation

Zusammenfassung

Wir sind umgeben von verschiedenen Objekten mit beweglichen, gegliederten Teilen, z. B. Kiste, Griff, Tür. Eine genaue und generalisierbare Wahrnehmung von Gelenkteilen ist essenziell, um die Manipulationsfähigkeiten von Robotern zu verbessern. Aufbauend auf diesem Bedarf haben sich neuere Arbeiten zur Wahrnehmung von Gelenkteilen in zwei Hauptrichtungen entwickelt: Ein Forschungsansatz verwendet posenbasierte Darstellungen, die einen hohen manuellen Aufwand erfordern; parallel dazu extrahieren affordanzbasierte Methoden zukünftige Objektbewegungen aus Punktverfolgung ohne zusätzlichen manuellen Aufwand, leiden jedoch unter qualitativ schlechten Daten. In diesem Beitrag schlagen wir eine neue Darstellung von Gelenkteilen vor, die Geometrische Primärstruktur (GPS), eine Abstraktion der Geometriestruktur von Teilen, um Skalierbarkeit und Qualität auszugleichen. Für eine effiziente und skalierbare Datenerfassung wird GPS mit einem tragbaren Virtual-Reality(VR)-Gerät integriert und benötigt nur eine Minute, um eine Objektsequenz zu annotieren. Diese direkte manuelle Annotation liefert eine höhere Qualität als die geschätzte Affordanz. Mit diesem effizienten VR-GPS-System sammeln wir 41.000 Bilder für 234 Objekte aus sechs Teilklassen und trainieren ein generalisierbares GPS-Modell mit einem einzelnen RGB-D-Objektbild als Eingabe. Für die Objektmanipulation setzen wir eine heuristische Strategie ein, die auf GPS-Vorhersagen basiert. Ohne domänenspezifisches Feintuning erreicht unsere Methode eine Erfolgsquote von 73 % und deckt 270 Anfangszustände für 9 Objekte ab. Unser Code, unsere Daten und das wiederverwendbare Werkzeug sind verfügbar unter https://enlighten0707.github.io/gps.

English

We are surrounded by various objects with movable, articulated parts, e.g., box, handle, door. An accurate and generalizable perception of articulated parts is essential to enhance robotic manipulation capabilities. Building on this need, recent efforts in articulated parts perception have followed two main directions: One line of work uses pose-based representation, which requires high manual cost; in parallel, affordance-based methods extract future object motion from point tracking without additional manual efforts, but suffer from low-quality data. In this paper, we propose a new representation of articulated parts, Geometric Primary Structure (GPS), an abstraction of the part geometry structure to balance scalability and quality. For efficient and scalable data collection, GPS is integrated with a portable Virtual Reality (VR) device and requires only one minute to annotate one object sequence. This direct human annotation provides higher quality than the estimated affordance. With this efficient VR-GPS system, we collect 41K frames for 234 objects across six part classes, and train a generalizable GPS model with a single RGB-D object image as input. For object manipulation, we deploy a heuristic policy based on GPS prediction. Without any in-domain fine-tuning, our method achieves an 73% success rate, covering 270 initial states for 9 objects. Our code, data and reusable tool are available at https://enlighten0707.github.io/gps.