ChatPaper.aiChatPaper

OK-Robot: Was wirklich zählt bei der Integration von Open-Knowledge-Modellen für die Robotik

OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics

January 22, 2024
Autoren: Peiqi Liu, Yaswanth Orru, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto
cs.AI

Zusammenfassung

In den letzten Jahren wurden bemerkenswerte Fortschritte in den Bereichen Sehen, Sprache und Robotik erzielt. Wir verfügen nun über Bilderkennungsmodelle, die Objekte basierend auf Sprachabfragen identifizieren können, Navigationssysteme, die mobile Systeme effektiv steuern, und Greifmodelle, die eine Vielzahl von Objekten handhaben können. Trotz dieser Fortschritte hinken allgemeine Anwendungen der Robotik noch hinterher, obwohl sie auf diesen grundlegenden Fähigkeiten der Erkennung, Navigation und des Greifens basieren. In diesem Artikel verfolgen wir einen systemorientierten Ansatz, um ein neues Open-Knowledge-basiertes Robotik-Framework namens OK-Robot zu entwickeln. Durch die Kombination von Vision-Language-Modellen (VLMs) für die Objekterkennung, Navigationsprimitiven für die Bewegung und Greifprimitiven für die Objektmanipulation bietet OK-Robot eine integrierte Lösung für Pick-and-Drop-Operationen, ohne dass ein Training erforderlich ist. Um die Leistung zu bewerten, setzen wir OK-Robot in 10 realen Haushaltsumgebungen ein. Die Ergebnisse zeigen, dass OK-Robot eine Erfolgsquote von 58,5 % bei offenen Pick-and-Drop-Aufgaben erreicht, was einen neuen Stand der Technik in der Open Vocabulary Mobile Manipulation (OVMM) darstellt und nahezu das 1,8-fache der Leistung früherer Arbeiten erreicht. In sauberen, aufgeräumten Umgebungen steigt die Leistung von OK-Robot auf 82 %. Die wichtigste Erkenntnis aus OK-Robot ist jedoch die entscheidende Rolle von nuancenreichen Details bei der Kombination von Open-Knowledge-Systemen wie VLMs mit Robotikmodulen. Videos unserer Experimente sind auf unserer Website verfügbar: https://ok-robot.github.io
English
Remarkable progress has been made in recent years in the fields of vision, language, and robotics. We now have vision models capable of recognizing objects based on language queries, navigation systems that can effectively control mobile systems, and grasping models that can handle a wide range of objects. Despite these advancements, general-purpose applications of robotics still lag behind, even though they rely on these fundamental capabilities of recognition, navigation, and grasping. In this paper, we adopt a systems-first approach to develop a new Open Knowledge-based robotics framework called OK-Robot. By combining Vision-Language Models (VLMs) for object detection, navigation primitives for movement, and grasping primitives for object manipulation, OK-Robot offers a integrated solution for pick-and-drop operations without requiring any training. To evaluate its performance, we run OK-Robot in 10 real-world home environments. The results demonstrate that OK-Robot achieves a 58.5% success rate in open-ended pick-and-drop tasks, representing a new state-of-the-art in Open Vocabulary Mobile Manipulation (OVMM) with nearly 1.8x the performance of prior work. On cleaner, uncluttered environments, OK-Robot's performance increases to 82%. However, the most important insight gained from OK-Robot is the critical role of nuanced details when combining Open Knowledge systems like VLMs with robotic modules. Videos of our experiments are available on our website: https://ok-robot.github.io
PDF102December 15, 2024