Uso Creativo de Herramientas por Robots con Modelos de Lenguaje a Gran Escala
Creative Robot Tool Use with Large Language Models
October 19, 2023
Autores: Mengdi Xu, Peide Huang, Wenhao Yu, Shiqi Liu, Xilun Zhang, Yaru Niu, Tingnan Zhang, Fei Xia, Jie Tan, Ding Zhao
cs.AI
Resumen
El uso de herramientas es un sello distintivo de la inteligencia avanzada, ejemplificado tanto en el comportamiento animal como en las capacidades robóticas. Este artículo investiga la viabilidad de dotar a los robots de la capacidad de utilizar herramientas de manera creativa en tareas que implican restricciones físicas implícitas y planificación a largo plazo. Aprovechando los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), desarrollamos RoboTool, un sistema que acepta instrucciones en lenguaje natural y genera código ejecutable para controlar robots en entornos tanto simulados como del mundo real. RoboTool incorpora cuatro componentes clave: (i) un "Analizador" que interpreta el lenguaje natural para discernir conceptos clave relacionados con la tarea, (ii) un "Planificador" que genera estrategias integrales basadas en la entrada de lenguaje y los conceptos clave, (iii) un "Calculador" que computa parámetros para cada habilidad, y (iv) un "Codificador" que traduce estos planes en código Python ejecutable. Nuestros resultados muestran que RoboTool no solo puede comprender restricciones físicas explícitas o implícitas y factores ambientales, sino que también demuestra un uso creativo de herramientas. A diferencia de los métodos tradicionales de Planificación de Tareas y Movimiento (TAMP, por sus siglas en inglés) que dependen de optimización explícita, nuestro sistema basado en LLM ofrece una solución más flexible, eficiente y fácil de usar para tareas robóticas complejas. A través de extensos experimentos, validamos que RoboTool es competente en manejar tareas que de otro modo serían inviables sin el uso creativo de herramientas, expandiendo así las capacidades de los sistemas robóticos. Las demostraciones están disponibles en nuestra página del proyecto: https://creative-robotool.github.io/.
English
Tool use is a hallmark of advanced intelligence, exemplified in both animal
behavior and robotic capabilities. This paper investigates the feasibility of
imbuing robots with the ability to creatively use tools in tasks that involve
implicit physical constraints and long-term planning. Leveraging Large Language
Models (LLMs), we develop RoboTool, a system that accepts natural language
instructions and outputs executable code for controlling robots in both
simulated and real-world environments. RoboTool incorporates four pivotal
components: (i) an "Analyzer" that interprets natural language to discern key
task-related concepts, (ii) a "Planner" that generates comprehensive strategies
based on the language input and key concepts, (iii) a "Calculator" that
computes parameters for each skill, and (iv) a "Coder" that translates these
plans into executable Python code. Our results show that RoboTool can not only
comprehend explicit or implicit physical constraints and environmental factors
but also demonstrate creative tool use. Unlike traditional Task and Motion
Planning (TAMP) methods that rely on explicit optimization, our LLM-based
system offers a more flexible, efficient, and user-friendly solution for
complex robotics tasks. Through extensive experiments, we validate that
RoboTool is proficient in handling tasks that would otherwise be infeasible
without the creative use of tools, thereby expanding the capabilities of
robotic systems. Demos are available on our project page:
https://creative-robotool.github.io/.