ChatPaper.aiChatPaper

JARVIS-1: Open-World Multi-task Agents met Geheugen-versterkte Multimodale Taalmodellen

JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models

November 10, 2023
Auteurs: Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, Xiaojian Ma, Yitao Liang
cs.AI

Samenvatting

Het bereiken van mensachtige planning en controle met multimodale observaties in een open wereld is een belangrijke mijlpaal voor functionelere generalistische agents. Bestaande benaderingen kunnen bepaalde langetermijntaken in een open wereld aan. Ze hebben echter nog steeds moeite wanneer het aantal open-wereldtaken potentieel oneindig is en missen het vermogen om de taakvoltooiing progressief te verbeteren naarmate de speeltijd vordert. We introduceren JARVIS-1, een open-wereldagent die multimodale input (visuele observaties en menselijke instructies) kan waarnemen, geavanceerde plannen kan genereren en belichaamde controle kan uitvoeren, allemaal binnen het populaire maar uitdagende open-werelduniversum van Minecraft. Specifiek ontwikkelen we JARVIS-1 op basis van vooraf getrainde multimodale taalmodelen, die visuele observaties en tekstuele instructies vertalen naar plannen. Deze plannen worden uiteindelijk doorgestuurd naar de doelgerichte controllers. We rusten JARVIS-1 uit met een multimodaal geheugen, wat planning vergemakkelijkt door zowel vooraf getrainde kennis als zijn eigen overlevingservaringen in het spel te gebruiken. In onze experimenten vertoont JARVIS-1 bijna perfecte prestaties in meer dan 200 verschillende taken van de Minecraft Universe Benchmark, variërend van instap- tot intermediare niveaus. JARVIS-1 heeft een voltooiingspercentage van 12,5% bereikt in de langetermijntaak van het diamanten houweel. Dit vertegenwoordigt een significante toename tot wel 5 keer vergeleken met eerdere records. Bovendien tonen we aan dat JARVIS-1 in staat is tot zelfverbetering volgens een levenslang leerparadigma dankzij het multimodale geheugen, wat een meer algemene intelligentie en verbeterde autonomie aanwakkert. De projectpagina is beschikbaar op https://craftjarvis-jarvis1.github.io.
English
Achieving human-like planning and control with multimodal observations in an open world is a key milestone for more functional generalist agents. Existing approaches can handle certain long-horizon tasks in an open world. However, they still struggle when the number of open-world tasks could potentially be infinite and lack the capability to progressively enhance task completion as game time progresses. We introduce JARVIS-1, an open-world agent that can perceive multimodal input (visual observations and human instructions), generate sophisticated plans, and perform embodied control, all within the popular yet challenging open-world Minecraft universe. Specifically, we develop JARVIS-1 on top of pre-trained multimodal language models, which map visual observations and textual instructions to plans. The plans will be ultimately dispatched to the goal-conditioned controllers. We outfit JARVIS-1 with a multimodal memory, which facilitates planning using both pre-trained knowledge and its actual game survival experiences. In our experiments, JARVIS-1 exhibits nearly perfect performances across over 200 varying tasks from the Minecraft Universe Benchmark, ranging from entry to intermediate levels. JARVIS-1 has achieved a completion rate of 12.5% in the long-horizon diamond pickaxe task. This represents a significant increase up to 5 times compared to previous records. Furthermore, we show that JARVIS-1 is able to self-improve following a life-long learning paradigm thanks to multimodal memory, sparking a more general intelligence and improved autonomy. The project page is available at https://craftjarvis-jarvis1.github.io.
PDF371December 15, 2024