Uso Criativo de Ferramentas por Robôs com Modelos de Linguagem de Grande Escala
Creative Robot Tool Use with Large Language Models
October 19, 2023
Autores: Mengdi Xu, Peide Huang, Wenhao Yu, Shiqi Liu, Xilun Zhang, Yaru Niu, Tingnan Zhang, Fei Xia, Jie Tan, Ding Zhao
cs.AI
Resumo
O uso de ferramentas é uma marca registrada da inteligência avançada, exemplificada tanto no comportamento animal quanto nas capacidades robóticas. Este artigo investiga a viabilidade de dotar robôs com a capacidade de usar ferramentas de forma criativa em tarefas que envolvem restrições físicas implícitas e planejamento de longo prazo. Aproveitando os Modelos de Linguagem de Grande Escala (LLMs), desenvolvemos o RoboTool, um sistema que aceita instruções em linguagem natural e gera código executável para controlar robôs em ambientes simulados e no mundo real. O RoboTool incorpora quatro componentes fundamentais: (i) um "Analisador" que interpreta a linguagem natural para discernir conceitos-chave relacionados à tarefa, (ii) um "Planejador" que gera estratégias abrangentes com base na entrada de linguagem e nos conceitos-chave, (iii) um "Calculador" que computa parâmetros para cada habilidade, e (iv) um "Codificador" que traduz esses planos em código Python executável. Nossos resultados mostram que o RoboTool não apenas compreende restrições físicas explícitas ou implícitas e fatores ambientais, mas também demonstra o uso criativo de ferramentas. Diferente dos métodos tradicionais de Planejamento de Tarefas e Movimentos (TAMP) que dependem de otimização explícita, nosso sistema baseado em LLM oferece uma solução mais flexível, eficiente e amigável para tarefas robóticas complexas. Através de extensos experimentos, validamos que o RoboTool é proficiente em lidar com tarefas que seriam inviáveis sem o uso criativo de ferramentas, expandindo assim as capacidades dos sistemas robóticos. Demonstrações estão disponíveis em nossa página do projeto: https://creative-robotool.github.io/.
English
Tool use is a hallmark of advanced intelligence, exemplified in both animal
behavior and robotic capabilities. This paper investigates the feasibility of
imbuing robots with the ability to creatively use tools in tasks that involve
implicit physical constraints and long-term planning. Leveraging Large Language
Models (LLMs), we develop RoboTool, a system that accepts natural language
instructions and outputs executable code for controlling robots in both
simulated and real-world environments. RoboTool incorporates four pivotal
components: (i) an "Analyzer" that interprets natural language to discern key
task-related concepts, (ii) a "Planner" that generates comprehensive strategies
based on the language input and key concepts, (iii) a "Calculator" that
computes parameters for each skill, and (iv) a "Coder" that translates these
plans into executable Python code. Our results show that RoboTool can not only
comprehend explicit or implicit physical constraints and environmental factors
but also demonstrate creative tool use. Unlike traditional Task and Motion
Planning (TAMP) methods that rely on explicit optimization, our LLM-based
system offers a more flexible, efficient, and user-friendly solution for
complex robotics tasks. Through extensive experiments, we validate that
RoboTool is proficient in handling tasks that would otherwise be infeasible
without the creative use of tools, thereby expanding the capabilities of
robotic systems. Demos are available on our project page:
https://creative-robotool.github.io/.