ROS-LLM : Un cadre ROS pour l'intelligence artificielle incarnée avec retour d'information sur les tâches et raisonnement structuré
ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning
June 28, 2024
Auteurs: Christopher E. Mower, Yuhui Wan, Hongzhan Yu, Antoine Grosnit, Jonas Gonzalez-Billandon, Matthieu Zimmer, Jinlong Wang, Xinyu Zhang, Yao Zhao, Anbang Zhai, Puze Liu, Davide Tateo, Cesar Cadena, Marco Hutter, Jan Peters, Guangjian Tian, Yuzheng Zhuang, Kun Shao, Xingyue Quan, Jianye Hao, Jun Wang, Haitham Bou-Ammar
cs.AI
Résumé
Nous présentons un cadre pour la programmation intuitive de robots par des non-experts, exploitant des invites en langage naturel et des informations contextuelles provenant du système d'exploitation robotique (ROS). Notre système intègre des modèles de langage de grande envergure (LLMs), permettant aux non-experts d'exprimer les exigences des tâches au système via une interface de chat. Les caractéristiques clés du cadre incluent : l'intégration de ROS avec un agent d'IA connecté à une multitude de LLMs open-source et commerciaux, l'extraction automatique d'un comportement à partir de la sortie du LLM et l'exécution d'actions/services ROS, la prise en charge de trois modes de comportement (séquence, arbre de comportement, machine à états), l'apprentissage par imitation pour ajouter de nouvelles actions robotiques à la bibliothèque d'actions possibles, et la réflexion du LLM via les retours humains et environnementaux. Des expériences approfondies valident le cadre, démontrant sa robustesse, son évolutivité et sa polyvalence dans divers scénarios, y compris des tâches à long terme, des réaménagements de table et un contrôle de supervision à distance. Pour faciliter l'adoption de notre cadre et soutenir la reproduction de nos résultats, nous avons rendu notre code open-source. Vous pouvez y accéder à l'adresse suivante : https://github.com/huawei-noah/HEBO/tree/master/ROSLLM.
English
We present a framework for intuitive robot programming by non-experts,
leveraging natural language prompts and contextual information from the Robot
Operating System (ROS). Our system integrates large language models (LLMs),
enabling non-experts to articulate task requirements to the system through a
chat interface. Key features of the framework include: integration of ROS with
an AI agent connected to a plethora of open-source and commercial LLMs,
automatic extraction of a behavior from the LLM output and execution of ROS
actions/services, support for three behavior modes (sequence, behavior tree,
state machine), imitation learning for adding new robot actions to the library
of possible actions, and LLM reflection via human and environment feedback.
Extensive experiments validate the framework, showcasing robustness,
scalability, and versatility in diverse scenarios, including long-horizon
tasks, tabletop rearrangements, and remote supervisory control. To facilitate
the adoption of our framework and support the reproduction of our results, we
have made our code open-source. You can access it at:
https://github.com/huawei-noah/HEBO/tree/master/ROSLLM.Summary
AI-Generated Summary