SIMA 2: Um Agente Corporificado Generalista para Mundos Virtuais

Resumo

Apresentamos o SIMA 2, um agente corporificado generalista que compreende e age em uma ampla variedade de mundos virtuais 3D. Construído sobre um modelo de base Gemini, o SIMA 2 representa um passo significativo em direção à interação ativa e orientada a objetivos em um ambiente corporificado. Diferente de trabalhos anteriores (por exemplo, SIMA 1) limitados a comandos linguísticos simples, o SIMA 2 atua como um parceiro interativo, capaz de raciocinar sobre objetivos de alto nível, conversar com o usuário e lidar com instruções complexas dadas por meio de linguagem e imagens. Em um portfólio diversificado de jogos, o SIMA 2 reduz substancialmente a lacuna em relação ao desempenho humano e demonstra uma generalização robusta para ambientes nunca vistos anteriormente, tudo isso mantendo as capacidades centrais de raciocínio do modelo base. Além disso, demonstramos uma capacidade de autoaprimoramento contínuo: ao aproveitar o Gemini para gerar tarefas e fornecer recompensas, o SIMA 2 pode aprender novas habilidades autonomamente do zero em um novo ambiente. Este trabalho valida um caminho para a criação de agentes versáteis e em constante aprendizado para mundos virtuais e, eventualmente, físicos.

English

We introduce SIMA 2, a generalist embodied agent that understands and acts in a wide variety of 3D virtual worlds. Built upon a Gemini foundation model, SIMA 2 represents a significant step toward active, goal-directed interaction within an embodied environment. Unlike prior work (e.g., SIMA 1) limited to simple language commands, SIMA 2 acts as an interactive partner, capable of reasoning about high-level goals, conversing with the user, and handling complex instructions given through language and images. Across a diverse portfolio of games, SIMA 2 substantially closes the gap with human performance and demonstrates robust generalization to previously unseen environments, all while retaining the base model's core reasoning capabilities. Furthermore, we demonstrate a capacity for open-ended self-improvement: by leveraging Gemini to generate tasks and provide rewards, SIMA 2 can autonomously learn new skills from scratch in a new environment. This work validates a path toward creating versatile and continuously learning agents for both virtual and, eventually, physical worlds.