ChatPaper.aiChatPaper

JARVIS-1: Open-World Multi-Task-Agenten mit speichererweiterten multimodalen Sprachmodellen

JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models

November 10, 2023
papers.authors: Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, Xiaojian Ma, Yitao Liang
cs.AI

papers.abstract

Die Erreichung einer menschenähnlichen Planung und Steuerung mit multimodalen Beobachtungen in einer offenen Welt ist ein entscheidender Meilenstein für funktionalere Generalisten-Agenten. Bestehende Ansätze können bestimmte langfristige Aufgaben in einer offenen Welt bewältigen. Sie haben jedoch noch Schwierigkeiten, wenn die Anzahl der Aufgaben in der offenen Welt potenziell unendlich ist, und es fehlt ihnen die Fähigkeit, die Aufgabenbewältigung mit fortschreitender Spielzeit kontinuierlich zu verbessern. Wir stellen JARVIS-1 vor, einen Agenten für offene Welten, der multimodale Eingaben (visuelle Beobachtungen und menschliche Anweisungen) wahrnehmen, anspruchsvolle Pläne erstellen und eine verkörperte Steuerung durchführen kann – alles innerhalb des beliebten und doch herausfordernden Open-World-Universums von Minecraft. Konkret entwickeln wir JARVIS-1 auf der Grundlage vortrainierter multimodaler Sprachmodelle, die visuelle Beobachtungen und textuelle Anweisungen in Pläne umsetzen. Diese Pläne werden schließlich an zielorientierte Controller weitergeleitet. Wir statten JARVIS-1 mit einem multimodalen Gedächtnis aus, das die Planung sowohl mit vortrainiertem Wissen als auch mit seinen tatsächlichen Spielerfahrungen unterstützt. In unseren Experimenten zeigt JARVIS-1 nahezu perfekte Leistungen bei über 200 verschiedenen Aufgaben des Minecraft Universe Benchmarks, die von Einsteiger- bis zu mittleren Schwierigkeitsgraden reichen. JARVIS-1 hat eine Abschlussrate von 12,5 % bei der langfristigen Aufgabe „Diamantspitzhacke“ erreicht. Dies stellt eine signifikante Steigerung um bis zu das Fünffache im Vergleich zu bisherigen Rekorden dar. Darüber hinaus zeigen wir, dass JARVIS-1 dank des multimodalen Gedächtnisses in der Lage ist, sich im Rahmen eines lebenslangen Lernparadigmas selbst zu verbessern, was eine allgemeinere Intelligenz und eine gesteigerte Autonomie fördert. Die Projektseite ist unter https://craftjarvis-jarvis1.github.io verfügbar.
English
Achieving human-like planning and control with multimodal observations in an open world is a key milestone for more functional generalist agents. Existing approaches can handle certain long-horizon tasks in an open world. However, they still struggle when the number of open-world tasks could potentially be infinite and lack the capability to progressively enhance task completion as game time progresses. We introduce JARVIS-1, an open-world agent that can perceive multimodal input (visual observations and human instructions), generate sophisticated plans, and perform embodied control, all within the popular yet challenging open-world Minecraft universe. Specifically, we develop JARVIS-1 on top of pre-trained multimodal language models, which map visual observations and textual instructions to plans. The plans will be ultimately dispatched to the goal-conditioned controllers. We outfit JARVIS-1 with a multimodal memory, which facilitates planning using both pre-trained knowledge and its actual game survival experiences. In our experiments, JARVIS-1 exhibits nearly perfect performances across over 200 varying tasks from the Minecraft Universe Benchmark, ranging from entry to intermediate levels. JARVIS-1 has achieved a completion rate of 12.5% in the long-horizon diamond pickaxe task. This represents a significant increase up to 5 times compared to previous records. Furthermore, we show that JARVIS-1 is able to self-improve following a life-long learning paradigm thanks to multimodal memory, sparking a more general intelligence and improved autonomy. The project page is available at https://craftjarvis-jarvis1.github.io.
PDF371December 15, 2024