Solaris: Een Multiplayer Videowereldmodel Bouwen in Minecraft
Solaris: Building a Multiplayer Video World Model in Minecraft
February 25, 2026
Auteurs: Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie
cs.AI
Samenvatting
Bestaande actie-gestuurde videogeneratiemodellen (video-wereldmodellen) zijn beperkt tot perspectieven van één agent en slagen er niet in de multi-agentinteracties van realistische omgevingen vast te leggen. Wij introduceren Solaris, een multiplayer video-wereldmodel dat consistente multi-perspectief observaties simuleert. Om dit mogelijk te maken, ontwikkelden we een multiplayer datasysteem ontworpen voor robuuste, continue en geautomatiseerde dataverzameling in videogames zoals Minecraft. In tegenstelling tot eerdere platforms voor single-player settings, ondersteunt ons systeem gecoördineerde multi-agentinteractie en gesynchroniseerde opname van video's en acties. Met dit systeem verzamelden we 12,64 miljoen multiplayer frames en stellen we een evaluatieraamwerk voor voor multiplayer beweging, geheugen, grounding, bouwen en perspectiefconsistentie. We trainen Solaris met een gefaseerde pijplijn die geleidelijk overgaat van single-player naar multiplayer modellering, waarbij bidirectionele, causale en Self Forcing training worden gecombineerd. In de laatste fase introduceren we Checkpointed Self Forcing, een geheugenefficiënte variant van Self Forcing die een leraar met een langere tijdshorizon mogelijk maakt. Resultaten tonen aan dat onze architectuur en trainingsontwerp bestaande baseline-methoden overtreffen. Door ons systeem en modellen open source te maken, hopen we de basis te leggen voor een nieuwe generatie multi-agent wereldmodellen.
English
Existing action-conditioned video generation models (video world models) are limited to single-agent perspectives, failing to capture the multi-agent interactions of real-world environments. We introduce Solaris, a multiplayer video world model that simulates consistent multi-view observations. To enable this, we develop a multiplayer data system designed for robust, continuous, and automated data collection on video games such as Minecraft. Unlike prior platforms built for single-player settings, our system supports coordinated multi-agent interaction and synchronized videos + actions capture. Using this system, we collect 12.64 million multiplayer frames and propose an evaluation framework for multiplayer movement, memory, grounding, building, and view consistency. We train Solaris using a staged pipeline that progressively transitions from single-player to multiplayer modeling, combining bidirectional, causal, and Self Forcing training. In the final stage, we introduce Checkpointed Self Forcing, a memory-efficient Self Forcing variant that enables a longer-horizon teacher. Results show our architecture and training design outperform existing baselines. Through open-sourcing our system and models, we hope to lay the groundwork for a new generation of multi-agent world models.