ROS-LLM: Ein ROS-Framework für verkörperte KI mit Aufgabenrückmeldung und strukturiertem Schlussfolgern

papers.abstract

Wir präsentieren ein Framework für die intuitive Programmierung von Robotern durch Nicht-Experten, das natürlichsprachliche Anweisungen und Kontextinformationen aus dem Robot Operating System (ROS) nutzt. Unser System integriert große Sprachmodelle (LLMs), die es Nicht-Experten ermöglichen, Aufgabenanforderungen über eine Chat-Schnittstelle an das System zu formulieren. Zu den wichtigsten Merkmalen des Frameworks gehören: die Integration von ROS mit einem KI-Agenten, der mit einer Vielzahl von Open-Source- und kommerziellen LLMs verbunden ist, die automatische Extraktion eines Verhaltens aus der Ausgabe des LLM und die Ausführung von ROS-Aktionen/Diensten, Unterstützung für drei Verhaltensmodi (Sequenz, Verhaltensbaum, Zustandsmaschine), Imitationslernen zur Hinzufügung neuer Roboteraktionen zur Bibliothek möglicher Aktionen, sowie die Reflexion des LLM durch menschliches und Umgebungsfeedback. Um das Framework zu validieren, wurden umfangreiche Experimente durchgeführt, die Robustheit, Skalierbarkeit und Vielseitigkeit in verschiedenen Szenarien wie langfristige Aufgaben, Tischumstellungen und Fernüberwachung demonstrieren. Um die Übernahme unseres Frameworks zu erleichtern und die Reproduktion unserer Ergebnisse zu unterstützen, haben wir unseren Code als Open-Source veröffentlicht. Sie können darauf zugreifen unter: https://github.com/huawei-noah/HEBO/tree/master/ROSLLM.

English

We present a framework for intuitive robot programming by non-experts, leveraging natural language prompts and contextual information from the Robot Operating System (ROS). Our system integrates large language models (LLMs), enabling non-experts to articulate task requirements to the system through a chat interface. Key features of the framework include: integration of ROS with an AI agent connected to a plethora of open-source and commercial LLMs, automatic extraction of a behavior from the LLM output and execution of ROS actions/services, support for three behavior modes (sequence, behavior tree, state machine), imitation learning for adding new robot actions to the library of possible actions, and LLM reflection via human and environment feedback. Extensive experiments validate the framework, showcasing robustness, scalability, and versatility in diverse scenarios, including long-horizon tasks, tabletop rearrangements, and remote supervisory control. To facilitate the adoption of our framework and support the reproduction of our results, we have made our code open-source. You can access it at: https://github.com/huawei-noah/HEBO/tree/master/ROSLLM.

ROS-LLM: Ein ROS-Framework für verkörperte KI mit Aufgabenrückmeldung und strukturiertem Schlussfolgern

ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning

papers.abstract

Support