SIMA 2: Универсальный воплощённый агент для виртуальных миров

Аннотация

Мы представляем SIMA 2 — универсального воплощённого агента, который понимает и действует в широком спектре трёхмерных виртуальных миров. Построенный на базовой модели Gemini, SIMA 2 представляет собой значительный шаг к активному, целенаправленному взаимодействию в воплощённой среде. В отличие от предыдущих работ (например, SIMA 1), ограниченных простыми языковыми командами, SIMA 2 действует как интерактивный партнёр, способный рассуждать о высокоуровневых целях, общаться с пользователем и обрабатывать сложные инструкции, заданные с помощью языка и изображений. В разнообразном портфолио игр SIMA 2 существенно сокращает разрыв с человеческими показателями и демонстрирует robustную генерализацию в ранее невиданных средах, сохраняя при этом базовые способности модели к рассуждению. Кроме того, мы демонстрируем способность к открытому самообучению: используя Gemini для генерации задач и предоставления вознаграждений, SIMA 2 может автономно осваивать новые навыки с нуля в новой среде. Данная работа подтверждает путь к созданию универсальных и непрерывно обучающихся агентов как для виртуальных, так и, в конечном счёте, для физических миров.

English

We introduce SIMA 2, a generalist embodied agent that understands and acts in a wide variety of 3D virtual worlds. Built upon a Gemini foundation model, SIMA 2 represents a significant step toward active, goal-directed interaction within an embodied environment. Unlike prior work (e.g., SIMA 1) limited to simple language commands, SIMA 2 acts as an interactive partner, capable of reasoning about high-level goals, conversing with the user, and handling complex instructions given through language and images. Across a diverse portfolio of games, SIMA 2 substantially closes the gap with human performance and demonstrates robust generalization to previously unseen environments, all while retaining the base model's core reasoning capabilities. Furthermore, we demonstrate a capacity for open-ended self-improvement: by leveraging Gemini to generate tasks and provide rewards, SIMA 2 can autonomously learn new skills from scratch in a new environment. This work validates a path toward creating versatile and continuously learning agents for both virtual and, eventually, physical worlds.

SIMA 2: Универсальный воплощённый агент для виртуальных миров

SIMA 2: A Generalist Embodied Agent for Virtual Worlds

Аннотация

Support