JARVIS-1 : Agents multitâches en monde ouvert avec des modèles de langage multimodaux à mémoire augmentée

papers.abstract

Atteindre une planification et un contrôle semblables à ceux des humains avec des observations multimodales dans un monde ouvert constitue une étape clé pour des agents généralistes plus fonctionnels. Les approches existantes peuvent gérer certaines tâches à long terme dans un monde ouvert. Cependant, elles rencontrent encore des difficultés lorsque le nombre de tâches dans un monde ouvert pourrait potentiellement être infini et manquent de la capacité à améliorer progressivement l’accomplissement des tâches à mesure que le temps de jeu avance. Nous présentons JARVIS-1, un agent de monde ouvert capable de percevoir des entrées multimodales (observations visuelles et instructions humaines), de générer des plans sophistiqués et d’effectuer un contrôle incarné, le tout dans l’univers ouvert et complexe de Minecraft. Plus précisément, nous développons JARVIS-1 à partir de modèles de langage multimodaux pré-entraînés, qui associent les observations visuelles et les instructions textuelles à des plans. Ces plans seront ensuite transmis à des contrôleurs conditionnés par des objectifs. Nous équipons JARVIS-1 d’une mémoire multimodale, qui facilite la planification en utilisant à la fois des connaissances pré-entraînées et ses expériences réelles de survie dans le jeu. Dans nos expériences, JARVIS-1 démontre des performances quasi parfaites sur plus de 200 tâches variées du Minecraft Universe Benchmark, allant du niveau débutant à intermédiaire. JARVIS-1 a atteint un taux de réussite de 12,5 % dans la tâche à long terme de fabrication d’une pioche en diamant. Cela représente une augmentation significative, jusqu’à 5 fois par rapport aux records précédents. De plus, nous montrons que JARVIS-1 est capable de s’auto-améliorer grâce à un paradigme d’apprentissage continu, favorisé par la mémoire multimodale, ce qui stimule une intelligence plus générale et une autonomie accrue. La page du projet est disponible à l’adresse suivante : https://craftjarvis-jarvis1.github.io.

English

Achieving human-like planning and control with multimodal observations in an open world is a key milestone for more functional generalist agents. Existing approaches can handle certain long-horizon tasks in an open world. However, they still struggle when the number of open-world tasks could potentially be infinite and lack the capability to progressively enhance task completion as game time progresses. We introduce JARVIS-1, an open-world agent that can perceive multimodal input (visual observations and human instructions), generate sophisticated plans, and perform embodied control, all within the popular yet challenging open-world Minecraft universe. Specifically, we develop JARVIS-1 on top of pre-trained multimodal language models, which map visual observations and textual instructions to plans. The plans will be ultimately dispatched to the goal-conditioned controllers. We outfit JARVIS-1 with a multimodal memory, which facilitates planning using both pre-trained knowledge and its actual game survival experiences. In our experiments, JARVIS-1 exhibits nearly perfect performances across over 200 varying tasks from the Minecraft Universe Benchmark, ranging from entry to intermediate levels. JARVIS-1 has achieved a completion rate of 12.5% in the long-horizon diamond pickaxe task. This represents a significant increase up to 5 times compared to previous records. Furthermore, we show that JARVIS-1 is able to self-improve following a life-long learning paradigm thanks to multimodal memory, sparking a more general intelligence and improved autonomy. The project page is available at https://craftjarvis-jarvis1.github.io.

JARVIS-1 : Agents multitâches en monde ouvert avec des modèles de langage multimodaux à mémoire augmentée

JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models

papers.abstract

Support