Творческое использование инструментов роботами с помощью больших языковых моделей
Creative Robot Tool Use with Large Language Models
October 19, 2023
Авторы: Mengdi Xu, Peide Huang, Wenhao Yu, Shiqi Liu, Xilun Zhang, Yaru Niu, Tingnan Zhang, Fei Xia, Jie Tan, Ding Zhao
cs.AI
Аннотация
Использование инструментов является признаком развитого интеллекта, что демонстрируется как в поведении животных, так и в возможностях роботов. В данной статье исследуется возможность наделения роботов способностью творчески использовать инструменты при выполнении задач, связанных с неявными физическими ограничениями и долгосрочным планированием. Используя крупные языковые модели (LLM), мы разработали RoboTool — систему, которая принимает инструкции на естественном языке и выдает исполняемый код для управления роботами как в симулированных, так и в реальных условиях. RoboTool включает четыре ключевых компонента: (i) "Анализатор", который интерпретирует естественный язык для выявления ключевых концепций, связанных с задачей, (ii) "Планировщик", который генерирует комплексные стратегии на основе языкового ввода и ключевых концепций, (iii) "Калькулятор", который вычисляет параметры для каждого навыка, и (iv) "Кодер", который преобразует эти планы в исполняемый код на Python. Наши результаты показывают, что RoboTool способен не только понимать явные и неявные физические ограничения и факторы окружающей среды, но и демонстрировать творческое использование инструментов. В отличие от традиционных методов планирования задач и движений (TAMP), которые полагаются на явную оптимизацию, наша система на основе LLM предлагает более гибкое, эффективное и удобное решение для сложных задач робототехники. В ходе обширных экспериментов мы подтвердили, что RoboTool успешно справляется с задачами, которые были бы невыполнимы без творческого использования инструментов, тем самым расширяя возможности роботизированных систем. Демонстрации доступны на странице проекта: https://creative-robotool.github.io/.
English
Tool use is a hallmark of advanced intelligence, exemplified in both animal
behavior and robotic capabilities. This paper investigates the feasibility of
imbuing robots with the ability to creatively use tools in tasks that involve
implicit physical constraints and long-term planning. Leveraging Large Language
Models (LLMs), we develop RoboTool, a system that accepts natural language
instructions and outputs executable code for controlling robots in both
simulated and real-world environments. RoboTool incorporates four pivotal
components: (i) an "Analyzer" that interprets natural language to discern key
task-related concepts, (ii) a "Planner" that generates comprehensive strategies
based on the language input and key concepts, (iii) a "Calculator" that
computes parameters for each skill, and (iv) a "Coder" that translates these
plans into executable Python code. Our results show that RoboTool can not only
comprehend explicit or implicit physical constraints and environmental factors
but also demonstrate creative tool use. Unlike traditional Task and Motion
Planning (TAMP) methods that rely on explicit optimization, our LLM-based
system offers a more flexible, efficient, and user-friendly solution for
complex robotics tasks. Through extensive experiments, we validate that
RoboTool is proficient in handling tasks that would otherwise be infeasible
without the creative use of tools, thereby expanding the capabilities of
robotic systems. Demos are available on our project page:
https://creative-robotool.github.io/.