Octopus: Geïntegreerde Visie-Taal Programmeur op Basis van Omgevingsfeedback
Octopus: Embodied Vision-Language Programmer from Environmental Feedback
October 12, 2023
Auteurs: Jingkang Yang, Yuhao Dong, Shuai Liu, Bo Li, Ziyue Wang, Chencheng Jiang, Haoran Tan, Jiamu Kang, Yuanhan Zhang, Kaiyang Zhou, Ziwei Liu
cs.AI
Samenvatting
Grote visueel-taalkundige modellen (VLMs) hebben aanzienlijke vooruitgang geboekt in multimodale perceptie en redenering. Bovendien, wanneer ze naadloos worden geïntegreerd in een belichaamde agent, markeert dit een cruciale stap naar de creatie van autonome en contextbewuste systemen die in staat zijn om plannen te formuleren en opdrachten met precisie uit te voeren. In dit artikel introduceren we Octopus, een nieuw VLM dat ontworpen is om het visuele en tekstuele taakdoel van een agent vaardig te interpreteren en complexe actievolgordes te formuleren en uitvoerbare code te genereren. Ons ontwerp stelt de agent in staat om een breed scala aan taken behendig te behandelen, variërend van alledaagse taken in simulatoren tot geavanceerde interacties in complexe videogames. Octopus wordt getraind door gebruik te maken van GPT-4 om een verkennende agent aan te sturen om trainingsdata te genereren, namelijk actieblauwdrukken en de bijbehorende uitvoerbare code, binnen onze experimentele omgeving genaamd OctoVerse. We verzamelen ook de feedback die de verbeterde trainingsmethode van Reinforcement Learning with Environmental Feedback (RLEF) mogelijk maakt. Door een reeks experimenten belichten we de functionaliteit van Octopus en presenteren we overtuigende resultaten, waarbij de voorgestelde RLEF blijkt bij te dragen aan de verfijning van de besluitvorming van de agent. Door ons modelarchitectuur, simulator en dataset open source te maken, streven we ernaar om verdere innovatie aan te wakkeren en collaboratieve toepassingen binnen de bredere belichaamde AI-gemeenschap te bevorderen.
English
Large vision-language models (VLMs) have achieved substantial progress in
multimodal perception and reasoning. Furthermore, when seamlessly integrated
into an embodied agent, it signifies a crucial stride towards the creation of
autonomous and context-aware systems capable of formulating plans and executing
commands with precision. In this paper, we introduce Octopus, a novel VLM
designed to proficiently decipher an agent's vision and textual task objectives
and to formulate intricate action sequences and generate executable code. Our
design allows the agent to adeptly handle a wide spectrum of tasks, ranging
from mundane daily chores in simulators to sophisticated interactions in
complex video games. Octopus is trained by leveraging GPT-4 to control an
explorative agent to generate training data, i.e., action blueprints and the
corresponding executable code, within our experimental environment called
OctoVerse. We also collect the feedback that allows the enhanced training
scheme of Reinforcement Learning with Environmental Feedback (RLEF). Through a
series of experiments, we illuminate Octopus's functionality and present
compelling results, and the proposed RLEF turns out to refine the agent's
decision-making. By open-sourcing our model architecture, simulator, and
dataset, we aspire to ignite further innovation and foster collaborative
applications within the broader embodied AI community.