ChatPaper.aiChatPaper

대형 언어 모델을 활용한 창의적 로봇 도구 사용

Creative Robot Tool Use with Large Language Models

October 19, 2023
저자: Mengdi Xu, Peide Huang, Wenhao Yu, Shiqi Liu, Xilun Zhang, Yaru Niu, Tingnan Zhang, Fei Xia, Jie Tan, Ding Zhao
cs.AI

초록

도구 사용은 동물 행동과 로봇 능력 모두에서 고급 지능의 상징으로 여겨집니다. 본 논문은 암묵적인 물리적 제약과 장기적 계획이 필요한 작업에서 로봇이 창의적으로 도구를 사용할 수 있는 가능성을 탐구합니다. 대규모 언어 모델(LLM)을 활용하여, 우리는 자연어 명령을 입력받고 시뮬레이션 및 실제 환경에서 로봇을 제어하기 위한 실행 가능한 코드를 출력하는 RoboTool 시스템을 개발했습니다. RoboTool은 네 가지 핵심 구성 요소를 포함합니다: (i) 자연어를 해석하여 작업과 관련된 주요 개념을 파악하는 "Analyzer", (ii) 언어 입력과 주요 개념을 바탕으로 포괄적인 전략을 생성하는 "Planner", (iii) 각 기술에 대한 매개변수를 계산하는 "Calculator", 그리고 (iv) 이러한 계획을 실행 가능한 Python 코드로 변환하는 "Coder". 우리의 실험 결과는 RoboTool이 명시적 또는 암묵적인 물리적 제약과 환경 요인을 이해할 뿐만 아니라 창의적인 도구 사용을 보여줄 수 있음을 입증합니다. 명시적 최적화에 의존하는 전통적인 작업 및 모션 계획(TAMP) 방법과 달리, 우리의 LLM 기반 시스템은 복잡한 로봇 작업을 위한 더 유연하고 효율적이며 사용자 친화적인 솔루션을 제공합니다. 광범위한 실험을 통해, 우리는 RoboTool이 창의적인 도구 사용 없이는 불가능했을 작업을 능숙하게 처리할 수 있음을 검증하며, 이를 통해 로봇 시스템의 능력을 확장합니다. 데모는 프로젝트 페이지에서 확인할 수 있습니다: https://creative-robotool.github.io/.
English
Tool use is a hallmark of advanced intelligence, exemplified in both animal behavior and robotic capabilities. This paper investigates the feasibility of imbuing robots with the ability to creatively use tools in tasks that involve implicit physical constraints and long-term planning. Leveraging Large Language Models (LLMs), we develop RoboTool, a system that accepts natural language instructions and outputs executable code for controlling robots in both simulated and real-world environments. RoboTool incorporates four pivotal components: (i) an "Analyzer" that interprets natural language to discern key task-related concepts, (ii) a "Planner" that generates comprehensive strategies based on the language input and key concepts, (iii) a "Calculator" that computes parameters for each skill, and (iv) a "Coder" that translates these plans into executable Python code. Our results show that RoboTool can not only comprehend explicit or implicit physical constraints and environmental factors but also demonstrate creative tool use. Unlike traditional Task and Motion Planning (TAMP) methods that rely on explicit optimization, our LLM-based system offers a more flexible, efficient, and user-friendly solution for complex robotics tasks. Through extensive experiments, we validate that RoboTool is proficient in handling tasks that would otherwise be infeasible without the creative use of tools, thereby expanding the capabilities of robotic systems. Demos are available on our project page: https://creative-robotool.github.io/.
PDF91December 15, 2024