ChatPaper.aiChatPaper

Utilisation créative d'outils par les robots avec des modèles de langage à grande échelle

Creative Robot Tool Use with Large Language Models

October 19, 2023
Auteurs: Mengdi Xu, Peide Huang, Wenhao Yu, Shiqi Liu, Xilun Zhang, Yaru Niu, Tingnan Zhang, Fei Xia, Jie Tan, Ding Zhao
cs.AI

Résumé

L'utilisation d'outils est un marqueur d'intelligence avancée, illustré à la fois dans le comportement animal et les capacités robotiques. Cet article explore la faisabilité de doter les robots de la capacité à utiliser de manière créative des outils dans des tâches impliquant des contraintes physiques implicites et une planification à long terme. En exploitant les modèles de langage de grande taille (LLMs), nous développons RoboTool, un système qui accepte des instructions en langage naturel et génère du code exécutable pour contrôler des robots dans des environnements simulés et réels. RoboTool intègre quatre composants clés : (i) un "Analyseur" qui interprète le langage naturel pour identifier les concepts clés liés à la tâche, (ii) un "Planificateur" qui génère des stratégies complètes basées sur l'entrée linguistique et les concepts clés, (iii) un "Calculateur" qui détermine les paramètres pour chaque compétence, et (iv) un "Codeur" qui traduit ces plans en code Python exécutable. Nos résultats montrent que RoboTool peut non seulement comprendre les contraintes physiques explicites ou implicites et les facteurs environnementaux, mais aussi démontrer une utilisation créative des outils. Contrairement aux méthodes traditionnelles de planification de tâches et de mouvements (TAMP) qui reposent sur une optimisation explicite, notre système basé sur les LLMs offre une solution plus flexible, efficace et conviviale pour les tâches robotiques complexes. À travers des expériences approfondies, nous validons que RoboTool est compétent pour gérer des tâches qui seraient autrement impossibles sans l'utilisation créative d'outils, élargissant ainsi les capacités des systèmes robotiques. Des démonstrations sont disponibles sur notre page de projet : https://creative-robotool.github.io/.
English
Tool use is a hallmark of advanced intelligence, exemplified in both animal behavior and robotic capabilities. This paper investigates the feasibility of imbuing robots with the ability to creatively use tools in tasks that involve implicit physical constraints and long-term planning. Leveraging Large Language Models (LLMs), we develop RoboTool, a system that accepts natural language instructions and outputs executable code for controlling robots in both simulated and real-world environments. RoboTool incorporates four pivotal components: (i) an "Analyzer" that interprets natural language to discern key task-related concepts, (ii) a "Planner" that generates comprehensive strategies based on the language input and key concepts, (iii) a "Calculator" that computes parameters for each skill, and (iv) a "Coder" that translates these plans into executable Python code. Our results show that RoboTool can not only comprehend explicit or implicit physical constraints and environmental factors but also demonstrate creative tool use. Unlike traditional Task and Motion Planning (TAMP) methods that rely on explicit optimization, our LLM-based system offers a more flexible, efficient, and user-friendly solution for complex robotics tasks. Through extensive experiments, we validate that RoboTool is proficient in handling tasks that would otherwise be infeasible without the creative use of tools, thereby expanding the capabilities of robotic systems. Demos are available on our project page: https://creative-robotool.github.io/.
PDF91December 15, 2024