ROS-LLM: Um framework ROS para IA incorporada com feedback de tarefa e raciocínio estruturado
ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning
June 28, 2024
Autores: Christopher E. Mower, Yuhui Wan, Hongzhan Yu, Antoine Grosnit, Jonas Gonzalez-Billandon, Matthieu Zimmer, Jinlong Wang, Xinyu Zhang, Yao Zhao, Anbang Zhai, Puze Liu, Davide Tateo, Cesar Cadena, Marco Hutter, Jan Peters, Guangjian Tian, Yuzheng Zhuang, Kun Shao, Xingyue Quan, Jianye Hao, Jun Wang, Haitham Bou-Ammar
cs.AI
Resumo
Apresentamos um framework para programação intuitiva de robôs por não especialistas, aproveitando prompts de linguagem natural e informações contextuais do Sistema Operacional de Robôs (ROS). Nosso sistema integra grandes modelos de linguagem (LLMs), permitindo que não especialistas articulem requisitos de tarefas para o sistema por meio de uma interface de chat. Recursos-chave do framework incluem: integração do ROS com um agente de IA conectado a uma infinidade de LLMs de código aberto e comerciais, extração automática de um comportamento a partir da saída do LLM e execução de ações/serviços do ROS, suporte para três modos de comportamento (sequência, árvore de comportamento, máquina de estados), aprendizado por imitação para adicionar novas ações de robô à biblioteca de ações possíveis, e reflexão do LLM por meio de feedback humano e do ambiente. Experimentos extensivos validam o framework, demonstrando robustez, escalabilidade e versatilidade em diversos cenários, incluindo tarefas de longo prazo, rearranjos de objetos em mesas e controle supervisório remoto. Para facilitar a adoção de nosso framework e apoiar a reprodução de nossos resultados, disponibilizamos nosso código de forma aberta. Você pode acessá-lo em: https://github.com/huawei-noah/HEBO/tree/master/ROSLLM.
English
We present a framework for intuitive robot programming by non-experts,
leveraging natural language prompts and contextual information from the Robot
Operating System (ROS). Our system integrates large language models (LLMs),
enabling non-experts to articulate task requirements to the system through a
chat interface. Key features of the framework include: integration of ROS with
an AI agent connected to a plethora of open-source and commercial LLMs,
automatic extraction of a behavior from the LLM output and execution of ROS
actions/services, support for three behavior modes (sequence, behavior tree,
state machine), imitation learning for adding new robot actions to the library
of possible actions, and LLM reflection via human and environment feedback.
Extensive experiments validate the framework, showcasing robustness,
scalability, and versatility in diverse scenarios, including long-horizon
tasks, tabletop rearrangements, and remote supervisory control. To facilitate
the adoption of our framework and support the reproduction of our results, we
have made our code open-source. You can access it at:
https://github.com/huawei-noah/HEBO/tree/master/ROSLLM.