Octopus : Programmeur vision-langage incarné à partir de retours d'environnement

papers.abstract

Les grands modèles vision-langage (VLMs) ont réalisé des progrès significatifs dans la perception et le raisonnement multimodaux. De plus, lorsqu'ils sont intégrés de manière transparente dans un agent incarné, cela représente une avancée cruciale vers la création de systèmes autonomes et conscients du contexte, capables de formuler des plans et d'exécuter des commandes avec précision. Dans cet article, nous présentons Octopus, un nouveau VLM conçu pour décrypter avec compétence la vision d'un agent et les objectifs de tâches textuelles, ainsi que pour formuler des séquences d'actions complexes et générer du code exécutable. Notre conception permet à l'agent de gérer habilement un large éventail de tâches, allant des corvées quotidiennes dans des simulateurs aux interactions sophistiquées dans des jeux vidéo complexes. Octopus est entraîné en exploitant GPT-4 pour contrôler un agent exploratoire afin de générer des données d'entraînement, c'est-à-dire des plans d'action et le code exécutable correspondant, dans notre environnement expérimental appelé OctoVerse. Nous collectons également les retours qui permettent un schéma d'entraînement amélioré basé sur l'apprentissage par renforcement avec retour environnemental (RLEF). À travers une série d'expériences, nous mettons en lumière le fonctionnement d'Octopus et présentons des résultats convaincants, et le RLEF proposé s'avère affiner la prise de décision de l'agent. En ouvrant l'accès à notre architecture de modèle, simulateur et ensemble de données, nous aspirons à stimuler davantage d'innovations et à favoriser des applications collaboratives au sein de la communauté élargie de l'IA incarnée.

English

Large vision-language models (VLMs) have achieved substantial progress in multimodal perception and reasoning. Furthermore, when seamlessly integrated into an embodied agent, it signifies a crucial stride towards the creation of autonomous and context-aware systems capable of formulating plans and executing commands with precision. In this paper, we introduce Octopus, a novel VLM designed to proficiently decipher an agent's vision and textual task objectives and to formulate intricate action sequences and generate executable code. Our design allows the agent to adeptly handle a wide spectrum of tasks, ranging from mundane daily chores in simulators to sophisticated interactions in complex video games. Octopus is trained by leveraging GPT-4 to control an explorative agent to generate training data, i.e., action blueprints and the corresponding executable code, within our experimental environment called OctoVerse. We also collect the feedback that allows the enhanced training scheme of Reinforcement Learning with Environmental Feedback (RLEF). Through a series of experiments, we illuminate Octopus's functionality and present compelling results, and the proposed RLEF turns out to refine the agent's decision-making. By open-sourcing our model architecture, simulator, and dataset, we aspire to ignite further innovation and foster collaborative applications within the broader embodied AI community.

Octopus : Programmeur vision-langage incarné à partir de retours d'environnement

Octopus: Embodied Vision-Language Programmer from Environmental Feedback

papers.abstract

Support