Solaris: Costruire un Modello di Mondo Video Multiplayer in Minecraft
Solaris: Building a Multiplayer Video World Model in Minecraft
February 25, 2026
Autori: Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie
cs.AI
Abstract
I modelli esistenti di generazione video condizionata da azioni (modelli di mondo video) sono limitati a prospettive di agente singolo, non riuscendo a catturare le interazioni multi-agente degli ambienti del mondo reale. Introduciamo Solaris, un modello di mondo video multiplayer che simula osservazioni multi-prospettiva consistenti. Per abilitare ciò, sviluppiamo un sistema di dati multiplayer progettato per una raccolta dati robusta, continua e automatizzata su videogiochi come Minecraft. A differenza delle piattaforme precedenti costruite per ambienti single-player, il nostro sistema supporta l'interazione coordinata multi-agente e la cattura sincronizzata di video e azioni. Utilizzando questo sistema, raccogliamo 12,64 milioni di frame multiplayer e proponiamo un framework di valutazione per la consistenza del movimento, della memoria, del grounding, della costruzione e della prospettiva in ambienti multiplayer. Addestriamo Solaris utilizzando una pipeline a stadi che passa progressivamente dalla modellazione single-player a quella multiplayer, combinando training bidirezionale, causale e Self Forcing. Nella fase finale, introduciamo il Checkpointed Self Forcing, una variante memory-efficient del Self Forcing che consente un insegnante a orizzonte più lungo. I risultati mostrano che la nostra architettura e il design di training superano le baseline esistenti. Rendendo open source il nostro sistema e i nostri modelli, speriamo di gettare le basi per una nuova generazione di modelli di mondo multi-agente.
English
Existing action-conditioned video generation models (video world models) are limited to single-agent perspectives, failing to capture the multi-agent interactions of real-world environments. We introduce Solaris, a multiplayer video world model that simulates consistent multi-view observations. To enable this, we develop a multiplayer data system designed for robust, continuous, and automated data collection on video games such as Minecraft. Unlike prior platforms built for single-player settings, our system supports coordinated multi-agent interaction and synchronized videos + actions capture. Using this system, we collect 12.64 million multiplayer frames and propose an evaluation framework for multiplayer movement, memory, grounding, building, and view consistency. We train Solaris using a staged pipeline that progressively transitions from single-player to multiplayer modeling, combining bidirectional, causal, and Self Forcing training. In the final stage, we introduce Checkpointed Self Forcing, a memory-efficient Self Forcing variant that enables a longer-horizon teacher. Results show our architecture and training design outperform existing baselines. Through open-sourcing our system and models, we hope to lay the groundwork for a new generation of multi-agent world models.