Kreativer Werkzeugeinsatz bei Robotern mit großen Sprachmodellen
Creative Robot Tool Use with Large Language Models
October 19, 2023
Autoren: Mengdi Xu, Peide Huang, Wenhao Yu, Shiqi Liu, Xilun Zhang, Yaru Niu, Tingnan Zhang, Fei Xia, Jie Tan, Ding Zhao
cs.AI
Zusammenfassung
Der Werkzeuggebrauch ist ein Kennzeichen fortgeschrittener Intelligenz, das sowohl im Verhalten von Tieren als auch in den Fähigkeiten von Robotern zu beobachten ist. Diese Arbeit untersucht die Machbarkeit, Robotern die Fähigkeit zu verleihen, Werkzeuge kreativ in Aufgaben einzusetzen, die implizite physikalische Einschränkungen und langfristige Planung beinhalten. Unter Nutzung von Large Language Models (LLMs) entwickeln wir RoboTool, ein System, das natürliche Sprachbefehle akzeptiert und ausführbaren Code zur Steuerung von Robotern in simulierten und realen Umgebungen ausgibt. RoboTool umfasst vier zentrale Komponenten: (i) einen „Analyzer“, der natürliche Sprache interpretiert, um wichtige aufgabenbezogene Konzepte zu erkennen, (ii) einen „Planner“, der umfassende Strategien basierend auf der Spracheingabe und den Schlüsselkonzepten generiert, (iii) einen „Calculator“, der Parameter für jede Fähigkeit berechnet, und (iv) einen „Coder“, der diese Pläne in ausführbaren Python-Code übersetzt. Unsere Ergebnisse zeigen, dass RoboTool nicht nur explizite oder implizite physikalische Einschränkungen und Umweltfaktoren verstehen, sondern auch kreativen Werkzeuggebrauch demonstrieren kann. Im Gegensatz zu traditionellen Methoden der Task and Motion Planning (TAMP), die auf expliziter Optimierung beruhen, bietet unser LLM-basiertes System eine flexiblere, effizientere und benutzerfreundlichere Lösung für komplexe Robotikaufgaben. Durch umfangreiche Experimente validieren wir, dass RoboTool in der Lage ist, Aufgaben zu bewältigen, die ohne den kreativen Einsatz von Werkzeugen nicht durchführbar wären, und erweitert somit die Fähigkeiten von Robotersystemen. Demos sind auf unserer Projektseite verfügbar: https://creative-robotool.github.io/.
English
Tool use is a hallmark of advanced intelligence, exemplified in both animal
behavior and robotic capabilities. This paper investigates the feasibility of
imbuing robots with the ability to creatively use tools in tasks that involve
implicit physical constraints and long-term planning. Leveraging Large Language
Models (LLMs), we develop RoboTool, a system that accepts natural language
instructions and outputs executable code for controlling robots in both
simulated and real-world environments. RoboTool incorporates four pivotal
components: (i) an "Analyzer" that interprets natural language to discern key
task-related concepts, (ii) a "Planner" that generates comprehensive strategies
based on the language input and key concepts, (iii) a "Calculator" that
computes parameters for each skill, and (iv) a "Coder" that translates these
plans into executable Python code. Our results show that RoboTool can not only
comprehend explicit or implicit physical constraints and environmental factors
but also demonstrate creative tool use. Unlike traditional Task and Motion
Planning (TAMP) methods that rely on explicit optimization, our LLM-based
system offers a more flexible, efficient, and user-friendly solution for
complex robotics tasks. Through extensive experiments, we validate that
RoboTool is proficient in handling tasks that would otherwise be infeasible
without the creative use of tools, thereby expanding the capabilities of
robotic systems. Demos are available on our project page:
https://creative-robotool.github.io/.