JARVIS-1: Агенты с открытым миром и множеством задач, основанные на мультимодальных языковых моделях с расширенной памятью
JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models
November 10, 2023
Авторы: Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, Xiaojian Ma, Yitao Liang
cs.AI
Аннотация
Достижение человеческого уровня планирования и управления с использованием мультимодальных наблюдений в открытом мире является ключевым этапом для создания более функциональных универсальных агентов. Существующие подходы способны справляться с определенными долгосрочными задачами в открытом мире. Однако они по-прежнему сталкиваются с трудностями, когда количество задач в открытом мире потенциально бесконечно, и не обладают способностью постепенно улучшать выполнение задач по мере прогрессирования игрового времени. Мы представляем JARVIS-1 — агента открытого мира, который способен воспринимать мультимодальные входные данные (визуальные наблюдения и инструкции от человека), генерировать сложные планы и выполнять управление в физическом мире, все это в рамках популярной, но сложной открытой вселенной Minecraft. В частности, мы разработали JARVIS-1 на основе предварительно обученных мультимодальных языковых моделей, которые преобразуют визуальные наблюдения и текстовые инструкции в планы. Эти планы в конечном итоге передаются контроллерам, ориентированным на достижение целей. Мы оснастили JARVIS-1 мультимодальной памятью, которая способствует планированию, используя как предварительно полученные знания, так и реальный игровой опыт выживания. В наших экспериментах JARVIS-1 демонстрирует почти идеальные результаты в более чем 200 различных задачах из Minecraft Universe Benchmark, начиная с начального и заканчивая средним уровнем сложности. JARVIS-1 достиг показателя завершения в 12,5% в долгосрочной задаче по созданию алмазной кирки. Это представляет собой значительное увеличение до 5 раз по сравнению с предыдущими рекордами. Кроме того, мы показываем, что JARVIS-1 способен к самоулучшению в рамках парадигмы обучения на протяжении всей жизни благодаря мультимодальной памяти, что способствует развитию более общего интеллекта и улучшенной автономии. Страница проекта доступна по адресу https://craftjarvis-jarvis1.github.io.
English
Achieving human-like planning and control with multimodal observations in an
open world is a key milestone for more functional generalist agents. Existing
approaches can handle certain long-horizon tasks in an open world. However,
they still struggle when the number of open-world tasks could potentially be
infinite and lack the capability to progressively enhance task completion as
game time progresses. We introduce JARVIS-1, an open-world agent that can
perceive multimodal input (visual observations and human instructions),
generate sophisticated plans, and perform embodied control, all within the
popular yet challenging open-world Minecraft universe. Specifically, we develop
JARVIS-1 on top of pre-trained multimodal language models, which map visual
observations and textual instructions to plans. The plans will be ultimately
dispatched to the goal-conditioned controllers. We outfit JARVIS-1 with a
multimodal memory, which facilitates planning using both pre-trained knowledge
and its actual game survival experiences. In our experiments, JARVIS-1 exhibits
nearly perfect performances across over 200 varying tasks from the Minecraft
Universe Benchmark, ranging from entry to intermediate levels. JARVIS-1 has
achieved a completion rate of 12.5% in the long-horizon diamond pickaxe task.
This represents a significant increase up to 5 times compared to previous
records. Furthermore, we show that JARVIS-1 is able to self-improve
following a life-long learning paradigm thanks to multimodal memory, sparking a
more general intelligence and improved autonomy. The project page is available
at https://craftjarvis-jarvis1.github.io.