JARVIS-1 : Agents multitâches en monde ouvert avec des modèles de langage multimodaux à mémoire augmentée
JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models
November 10, 2023
Auteurs: Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, Xiaojian Ma, Yitao Liang
cs.AI
Résumé
Atteindre une planification et un contrôle semblables à ceux des humains avec des observations multimodales dans un monde ouvert constitue une étape clé pour des agents généralistes plus fonctionnels. Les approches existantes peuvent gérer certaines tâches à long terme dans un monde ouvert. Cependant, elles rencontrent encore des difficultés lorsque le nombre de tâches dans un monde ouvert pourrait potentiellement être infini et manquent de la capacité à améliorer progressivement l’accomplissement des tâches à mesure que le temps de jeu avance. Nous présentons JARVIS-1, un agent de monde ouvert capable de percevoir des entrées multimodales (observations visuelles et instructions humaines), de générer des plans sophistiqués et d’effectuer un contrôle incarné, le tout dans l’univers ouvert et complexe de Minecraft. Plus précisément, nous développons JARVIS-1 à partir de modèles de langage multimodaux pré-entraînés, qui associent les observations visuelles et les instructions textuelles à des plans. Ces plans seront ensuite transmis à des contrôleurs conditionnés par des objectifs. Nous équipons JARVIS-1 d’une mémoire multimodale, qui facilite la planification en utilisant à la fois des connaissances pré-entraînées et ses expériences réelles de survie dans le jeu. Dans nos expériences, JARVIS-1 démontre des performances quasi parfaites sur plus de 200 tâches variées du Minecraft Universe Benchmark, allant du niveau débutant à intermédiaire. JARVIS-1 a atteint un taux de réussite de 12,5 % dans la tâche à long terme de fabrication d’une pioche en diamant. Cela représente une augmentation significative, jusqu’à 5 fois par rapport aux records précédents. De plus, nous montrons que JARVIS-1 est capable de s’auto-améliorer grâce à un paradigme d’apprentissage continu, favorisé par la mémoire multimodale, ce qui stimule une intelligence plus générale et une autonomie accrue. La page du projet est disponible à l’adresse suivante : https://craftjarvis-jarvis1.github.io.
English
Achieving human-like planning and control with multimodal observations in an
open world is a key milestone for more functional generalist agents. Existing
approaches can handle certain long-horizon tasks in an open world. However,
they still struggle when the number of open-world tasks could potentially be
infinite and lack the capability to progressively enhance task completion as
game time progresses. We introduce JARVIS-1, an open-world agent that can
perceive multimodal input (visual observations and human instructions),
generate sophisticated plans, and perform embodied control, all within the
popular yet challenging open-world Minecraft universe. Specifically, we develop
JARVIS-1 on top of pre-trained multimodal language models, which map visual
observations and textual instructions to plans. The plans will be ultimately
dispatched to the goal-conditioned controllers. We outfit JARVIS-1 with a
multimodal memory, which facilitates planning using both pre-trained knowledge
and its actual game survival experiences. In our experiments, JARVIS-1 exhibits
nearly perfect performances across over 200 varying tasks from the Minecraft
Universe Benchmark, ranging from entry to intermediate levels. JARVIS-1 has
achieved a completion rate of 12.5% in the long-horizon diamond pickaxe task.
This represents a significant increase up to 5 times compared to previous
records. Furthermore, we show that JARVIS-1 is able to self-improve
following a life-long learning paradigm thanks to multimodal memory, sparking a
more general intelligence and improved autonomy. The project page is available
at https://craftjarvis-jarvis1.github.io.