Solaris: Construyendo un Modelo de Mundo de Video Multijugador en Minecraft
Solaris: Building a Multiplayer Video World Model in Minecraft
February 25, 2026
Autores: Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie
cs.AI
Resumen
Los modelos existentes de generación de video condicionada por acciones (modelos de mundo de video) se limitan a perspectivas de un solo agente, sin capturar las interacciones multiagente de los entornos del mundo real. Presentamos Solaris, un modelo de mundo de video multijugador que simula observaciones consistentes desde múltiples perspectivas. Para lograrlo, desarrollamos un sistema de datos multijugador diseñado para la recolección robusta, continua y automatizada de datos en videojuegos como Minecraft. A diferencia de plataformas anteriores creadas para entornos unijugador, nuestro sistema soporta interacción multiagente coordinada y captura sincronizada de videos y acciones. Utilizando este sistema, recolectamos 12.64 millones de frames multijugador y proponemos un marco de evaluación para consistencia de movimiento, memoria, fundamentación, construcción y perspectiva multijugador. Entrenamos Solaris mediante un pipeline escalonado que transita progresivamente del modelado unijugador al multijugador, combinando entrenamiento bidireccional, causal y de Autoforzado. En la etapa final, introducimos el Autoforzado con Puntos de Control, una variante eficiente en memoria del Autoforzado que permite un profesor de horizonte más largo. Los resultados muestran que nuestra arquitectura y diseño de entrenamiento superan a los baselines existentes. Al liberar nuestro sistema y modelos como código abierto, esperamos sentar las bases para una nueva generación de modelos de mundo multiagente.
English
Existing action-conditioned video generation models (video world models) are limited to single-agent perspectives, failing to capture the multi-agent interactions of real-world environments. We introduce Solaris, a multiplayer video world model that simulates consistent multi-view observations. To enable this, we develop a multiplayer data system designed for robust, continuous, and automated data collection on video games such as Minecraft. Unlike prior platforms built for single-player settings, our system supports coordinated multi-agent interaction and synchronized videos + actions capture. Using this system, we collect 12.64 million multiplayer frames and propose an evaluation framework for multiplayer movement, memory, grounding, building, and view consistency. We train Solaris using a staged pipeline that progressively transitions from single-player to multiplayer modeling, combining bidirectional, causal, and Self Forcing training. In the final stage, we introduce Checkpointed Self Forcing, a memory-efficient Self Forcing variant that enables a longer-horizon teacher. Results show our architecture and training design outperform existing baselines. Through open-sourcing our system and models, we hope to lay the groundwork for a new generation of multi-agent world models.