ChatPaper.aiChatPaper

솔라리스: 마인크래프트 내 멀티플레이어 비디오 월드 모델 구축

Solaris: Building a Multiplayer Video World Model in Minecraft

February 25, 2026
저자: Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie
cs.AI

초록

기존의 행동 조건 비디오 생성 모델(비디오 월드 모델)은 단일 에이전트 시점에 국한되어 실제 환경의 다중 에이전트 상호작용을 포착하지 못합니다. 우리는 일관된 다중 시점 관측을 시뮬레이션하는 멀티플레이어 비디오 월드 모델인 Solaris를 소개합니다. 이를 위해 Minecraft와 같은 비디오 게임에서 견고하고 지속적이며 자동화된 데이터 수집을 위해 설계된 멀티플레이어 데이터 시스템을 개발했습니다. 단일 플레이어 환경용으로 구축된 기존 플랫폼과 달리, 우리 시스템은 조정된 다중 에이전트 상호작용과 동기화된 비디오 및 행동 캡처를 지원합니다. 이 시스템을 사용하여 1,264만 프레임의 멀티플레이어 데이터를 수집하고, 멀티플레이어 이동, 메모리, 접지, 건설 및 시점 일관성에 대한 평가 프레임워크를 제안합니다. 양방향, 인과, Self Forcing 훈련을 결합하여 단일 플레이어에서 멀티플레이어 모델링으로 점진적으로 전환하는 단계적 파이프라인으로 Solaris를 훈련합니다. 최종 단계에서는 더 긴 시야를 가진 티처를 가능하게 하는 메모리 효율적인 Self Forcing 변형인 Checkpointed Self Forcing을 도입합니다. 결과는 우리의 아키텍처와 훈련 설계가 기존 베이스라인을 능가함을 보여줍니다. 우리 시스템과 모델을 오픈소스로 공개함으로써 새로운 세대의 다중 에이전트 월드 모델을 위한 기반을 마련하고자 합니다.
English
Existing action-conditioned video generation models (video world models) are limited to single-agent perspectives, failing to capture the multi-agent interactions of real-world environments. We introduce Solaris, a multiplayer video world model that simulates consistent multi-view observations. To enable this, we develop a multiplayer data system designed for robust, continuous, and automated data collection on video games such as Minecraft. Unlike prior platforms built for single-player settings, our system supports coordinated multi-agent interaction and synchronized videos + actions capture. Using this system, we collect 12.64 million multiplayer frames and propose an evaluation framework for multiplayer movement, memory, grounding, building, and view consistency. We train Solaris using a staged pipeline that progressively transitions from single-player to multiplayer modeling, combining bidirectional, causal, and Self Forcing training. In the final stage, we introduce Checkpointed Self Forcing, a memory-efficient Self Forcing variant that enables a longer-horizon teacher. Results show our architecture and training design outperform existing baselines. Through open-sourcing our system and models, we hope to lay the groundwork for a new generation of multi-agent world models.
PDF182February 27, 2026