ChatPaper.aiChatPaper

大規模言語モデルを用いた創造的なロボットツール使用

Creative Robot Tool Use with Large Language Models

October 19, 2023
著者: Mengdi Xu, Peide Huang, Wenhao Yu, Shiqi Liu, Xilun Zhang, Yaru Niu, Tingnan Zhang, Fei Xia, Jie Tan, Ding Zhao
cs.AI

要旨

道具の使用は、高度な知能の特徴であり、動物の行動やロボットの能力においてもその例を見ることができます。本論文では、暗黙の物理的制約と長期的な計画を伴うタスクにおいて、ロボットに創造的な道具使用能力を付与する可能性を探ります。大規模言語モデル(LLM)を活用し、自然言語の指示を受け取り、シミュレーション環境および実世界環境でロボットを制御するための実行可能なコードを出力するシステム「RoboTool」を開発しました。RoboToolは、以下の4つの重要なコンポーネントを統合しています:(i) 自然言語を解釈し、タスクに関連する主要な概念を識別する「Analyzer」、(ii) 言語入力と主要概念に基づいて包括的な戦略を生成する「Planner」、(iii) 各スキルのパラメータを計算する「Calculator」、および (iv) これらの計画を実行可能なPythonコードに変換する「Coder」です。結果として、RoboToolは明示的または暗黙的な物理的制約や環境要因を理解するだけでなく、創造的な道具使用も実証しました。従来のタスクとモーションプランニング(TAMP)手法が明示的な最適化に依存するのに対し、我々のLLMベースのシステムは、複雑なロボットタスクに対してより柔軟で効率的、かつユーザーフレンドリーなソリューションを提供します。広範な実験を通じて、RoboToolが創造的な道具使用なしでは実現不可能なタスクを的確に処理できることを検証し、ロボットシステムの能力を拡張しました。デモはプロジェクトページ(https://creative-robotool.github.io/)でご覧いただけます。
English
Tool use is a hallmark of advanced intelligence, exemplified in both animal behavior and robotic capabilities. This paper investigates the feasibility of imbuing robots with the ability to creatively use tools in tasks that involve implicit physical constraints and long-term planning. Leveraging Large Language Models (LLMs), we develop RoboTool, a system that accepts natural language instructions and outputs executable code for controlling robots in both simulated and real-world environments. RoboTool incorporates four pivotal components: (i) an "Analyzer" that interprets natural language to discern key task-related concepts, (ii) a "Planner" that generates comprehensive strategies based on the language input and key concepts, (iii) a "Calculator" that computes parameters for each skill, and (iv) a "Coder" that translates these plans into executable Python code. Our results show that RoboTool can not only comprehend explicit or implicit physical constraints and environmental factors but also demonstrate creative tool use. Unlike traditional Task and Motion Planning (TAMP) methods that rely on explicit optimization, our LLM-based system offers a more flexible, efficient, and user-friendly solution for complex robotics tasks. Through extensive experiments, we validate that RoboTool is proficient in handling tasks that would otherwise be infeasible without the creative use of tools, thereby expanding the capabilities of robotic systems. Demos are available on our project page: https://creative-robotool.github.io/.
PDF91December 15, 2024