Creatief Robotgereedschapgebruik met Grote Taalmodellen
Creative Robot Tool Use with Large Language Models
October 19, 2023
Auteurs: Mengdi Xu, Peide Huang, Wenhao Yu, Shiqi Liu, Xilun Zhang, Yaru Niu, Tingnan Zhang, Fei Xia, Jie Tan, Ding Zhao
cs.AI
Samenvatting
Het gebruik van gereedschap is een kenmerk van geavanceerde intelligentie, wat zowel in diergedrag als in robotica terug te zien is. Dit artikel onderzoekt de haalbaarheid van het uitrusten van robots met het vermogen om op creatieve wijze gereedschap te gebruiken bij taken die impliciete fysieke beperkingen en langetermijnplanning omvatten. Door gebruik te maken van Large Language Models (LLMs) ontwikkelen we RoboTool, een systeem dat natuurlijke taal instructies accepteert en uitvoerbare code genereert voor het besturen van robots in zowel gesimuleerde als echte omgevingen. RoboTool bevat vier cruciale componenten: (i) een "Analyzer" die natuurlijke taal interpreteert om belangrijke taakgerelateerde concepten te identificeren, (ii) een "Planner" die uitgebreide strategieën genereert op basis van de taalinput en de sleutelconcepten, (iii) een "Calculator" die parameters voor elke vaardigheid berekent, en (iv) een "Coder" die deze plannen vertaalt naar uitvoerbare Python-code. Onze resultaten tonen aan dat RoboTool niet alleen expliciete of impliciete fysieke beperkingen en omgevingsfactoren kan begrijpen, maar ook creatief gebruik van gereedschap kan demonstreren. In tegenstelling tot traditionele Task and Motion Planning (TAMP) methoden die afhankelijk zijn van expliciete optimalisatie, biedt ons LLM-gebaseerde systeem een flexibelere, efficiëntere en gebruiksvriendelijkere oplossing voor complexe robotica-taken. Door uitgebreide experimenten valideren we dat RoboTool bekwaam is in het uitvoeren van taken die anders onhaalbaar zouden zijn zonder het creatieve gebruik van gereedschap, waardoor de mogelijkheden van robotsystemen worden uitgebreid. Demo's zijn beschikbaar op onze projectpagina: https://creative-robotool.github.io/.
English
Tool use is a hallmark of advanced intelligence, exemplified in both animal
behavior and robotic capabilities. This paper investigates the feasibility of
imbuing robots with the ability to creatively use tools in tasks that involve
implicit physical constraints and long-term planning. Leveraging Large Language
Models (LLMs), we develop RoboTool, a system that accepts natural language
instructions and outputs executable code for controlling robots in both
simulated and real-world environments. RoboTool incorporates four pivotal
components: (i) an "Analyzer" that interprets natural language to discern key
task-related concepts, (ii) a "Planner" that generates comprehensive strategies
based on the language input and key concepts, (iii) a "Calculator" that
computes parameters for each skill, and (iv) a "Coder" that translates these
plans into executable Python code. Our results show that RoboTool can not only
comprehend explicit or implicit physical constraints and environmental factors
but also demonstrate creative tool use. Unlike traditional Task and Motion
Planning (TAMP) methods that rely on explicit optimization, our LLM-based
system offers a more flexible, efficient, and user-friendly solution for
complex robotics tasks. Through extensive experiments, we validate that
RoboTool is proficient in handling tasks that would otherwise be infeasible
without the creative use of tools, thereby expanding the capabilities of
robotic systems. Demos are available on our project page:
https://creative-robotool.github.io/.