Octopus : Programmeur vision-langage incarné à partir de retours d'environnement
Octopus: Embodied Vision-Language Programmer from Environmental Feedback
October 12, 2023
Auteurs: Jingkang Yang, Yuhao Dong, Shuai Liu, Bo Li, Ziyue Wang, Chencheng Jiang, Haoran Tan, Jiamu Kang, Yuanhan Zhang, Kaiyang Zhou, Ziwei Liu
cs.AI
Résumé
Les grands modèles vision-langage (VLMs) ont réalisé des progrès significatifs dans la perception et le raisonnement multimodaux. De plus, lorsqu'ils sont intégrés de manière transparente dans un agent incarné, cela représente une avancée cruciale vers la création de systèmes autonomes et conscients du contexte, capables de formuler des plans et d'exécuter des commandes avec précision. Dans cet article, nous présentons Octopus, un nouveau VLM conçu pour décrypter avec compétence la vision d'un agent et les objectifs de tâches textuelles, ainsi que pour formuler des séquences d'actions complexes et générer du code exécutable. Notre conception permet à l'agent de gérer habilement un large éventail de tâches, allant des corvées quotidiennes dans des simulateurs aux interactions sophistiquées dans des jeux vidéo complexes. Octopus est entraîné en exploitant GPT-4 pour contrôler un agent exploratoire afin de générer des données d'entraînement, c'est-à-dire des plans d'action et le code exécutable correspondant, dans notre environnement expérimental appelé OctoVerse. Nous collectons également les retours qui permettent un schéma d'entraînement amélioré basé sur l'apprentissage par renforcement avec retour environnemental (RLEF). À travers une série d'expériences, nous mettons en lumière le fonctionnement d'Octopus et présentons des résultats convaincants, et le RLEF proposé s'avère affiner la prise de décision de l'agent. En ouvrant l'accès à notre architecture de modèle, simulateur et ensemble de données, nous aspirons à stimuler davantage d'innovations et à favoriser des applications collaboratives au sein de la communauté élargie de l'IA incarnée.
English
Large vision-language models (VLMs) have achieved substantial progress in
multimodal perception and reasoning. Furthermore, when seamlessly integrated
into an embodied agent, it signifies a crucial stride towards the creation of
autonomous and context-aware systems capable of formulating plans and executing
commands with precision. In this paper, we introduce Octopus, a novel VLM
designed to proficiently decipher an agent's vision and textual task objectives
and to formulate intricate action sequences and generate executable code. Our
design allows the agent to adeptly handle a wide spectrum of tasks, ranging
from mundane daily chores in simulators to sophisticated interactions in
complex video games. Octopus is trained by leveraging GPT-4 to control an
explorative agent to generate training data, i.e., action blueprints and the
corresponding executable code, within our experimental environment called
OctoVerse. We also collect the feedback that allows the enhanced training
scheme of Reinforcement Learning with Environmental Feedback (RLEF). Through a
series of experiments, we illuminate Octopus's functionality and present
compelling results, and the proposed RLEF turns out to refine the agent's
decision-making. By open-sourcing our model architecture, simulator, and
dataset, we aspire to ignite further innovation and foster collaborative
applications within the broader embodied AI community.