ChatPaper.aiChatPaper

SIMA 2: 가상 세계를 위한 범용 구현 에이전트

SIMA 2: A Generalist Embodied Agent for Virtual Worlds

December 4, 2025
저자: SIMA team, Adrian Bolton, Alexander Lerchner, Alexandra Cordell, Alexandre Moufarek, Andrew Bolt, Andrew Lampinen, Anna Mitenkova, Arne Olav Hallingstad, Bojan Vujatovic, Bonnie Li, Cong Lu, Daan Wierstra, Daniel P. Sawyer, Daniel Slater, David Reichert, Davide Vercelli, Demis Hassabis, Drew A. Hudson, Duncan Williams, Ed Hirst, Fabio Pardo, Felix Hill, Frederic Besse, Hannah Openshaw, Harris Chan, Hubert Soyer, Jane X. Wang, Jeff Clune, John Agapiou, John Reid, Joseph Marino, Junkyung Kim, Karol Gregor, Kaustubh Sridhar, Kay McKinney, Laura Kampis, Lei M. Zhang, Loic Matthey, Luyu Wang, Maria Abi Raad, Maria Loks-Thompson, Martin Engelcke, Matija Kecman, Matthew Jackson, Maxime Gazeau, Ollie Purkiss, Oscar Knagg, Peter Stys, Piermaria Mendolicchio, Raia Hadsell, Rosemary Ke, Ryan Faulkner, Sarah Chakera, Satinder Singh Baveja, Shane Legg, Sheleem Kashem, Tayfun Terzi, Thomas Keck, Tim Harley, Tim Scholtes, Tyson Roberts, Volodymyr Mnih, Yulan Liu, Zhengdong Wang, Zoubin Ghahramani
cs.AI

초록

우리는 다양한 3D 가상 세계를 이해하고 행동하는 범용 구현 에이전트인 SIMA 2를 소개한다. Gemini 파운데이션 모델을 기반으로 구축된 SIMA 2는 구현 환경 내에서 능동적이고 목표 지향적인 상호작용을 향한 중요한 진전을 나타낸다. 단순한 언어 명령에 국한되었던 기존 연구(SIMA 1 등)와 달리, SIMA 2는 상위 수준 목표를 추론하고 사용자와 대화하며, 언어와 이미지를 통해 주어진 복잡한 지시를 처리할 수 있는 상호작용 파트너 역할을 한다. 다양한 게임 포트폴리오에서 SIMA 2는 인간 수준의 성능 격차를 크게 좁히며 이전에 접하지 못한 환경으로의 강건한 일반화 능력을 입증하면서도 기본 모델의 핵심 추론 능력을 유지한다. 나아가, 우리는 개방형 자기 발전 능력도 입증한다: Gemini를 활용하여 작업을 생성하고 보상을 제공함으로써, SIMA 2는 새로운 환경에서 처음부터 새로운 기술을 자율적으로 학습할 수 있다. 이 연구는 가상 세계와 궁극적으로 물리적 세계를 위한 다재다능하고 지속적으로 학습하는 에이전트 생성으로 가는 길을 검증한다.
English
We introduce SIMA 2, a generalist embodied agent that understands and acts in a wide variety of 3D virtual worlds. Built upon a Gemini foundation model, SIMA 2 represents a significant step toward active, goal-directed interaction within an embodied environment. Unlike prior work (e.g., SIMA 1) limited to simple language commands, SIMA 2 acts as an interactive partner, capable of reasoning about high-level goals, conversing with the user, and handling complex instructions given through language and images. Across a diverse portfolio of games, SIMA 2 substantially closes the gap with human performance and demonstrates robust generalization to previously unseen environments, all while retaining the base model's core reasoning capabilities. Furthermore, we demonstrate a capacity for open-ended self-improvement: by leveraging Gemini to generate tasks and provide rewards, SIMA 2 can autonomously learn new skills from scratch in a new environment. This work validates a path toward creating versatile and continuously learning agents for both virtual and, eventually, physical worlds.
PDF91December 6, 2025