Solaris : Construction d'un modèle de monde vidéo multijoueur dans Minecraft
Solaris: Building a Multiplayer Video World Model in Minecraft
February 25, 2026
papers.authors: Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie
cs.AI
papers.abstract
Les modèles existants de génération de vidéos conditionnées par des actions (modèles du monde vidéo) se limitent à des perspectives à agent unique, ne parvenant pas à capturer les interactions multi-agents des environnements réels. Nous présentons Solaris, un modèle du monde vidéo multijoueur qui simule des observations multi-vues cohérentes. Pour y parvenir, nous développons un système de données multijoueur conçu pour une collecte de données robuste, continue et automatisée sur des jeux vidéo tels que Minecraft. Contrairement aux plateformes antérieures conçues pour des environnements solo, notre système prend en charge l'interaction multi-agents coordonnée et la capture synchronisée de vidéos et d'actions. En utilisant ce système, nous collectons 12,64 millions d'images multijoueurs et proposons un cadre d'évaluation pour la cohérence des déplacements, de la mémoire, de l'ancrage, de la construction et des vues en mode multijoueur. Nous entraînons Solaris à l'aide d'un pipeline par étapes qui passe progressivement d'une modélisation solo à une modélisation multijoueur, en combinant un entraînement bidirectionnel, causal et par Auto-Forçage. Dans la phase finale, nous introduisons l'Auto-Forçage avec Points de Contrôle, une variante économe en mémoire de l'Auto-Forçage qui permet d'utiliser un enseignant à plus long terme. Les résultats montrent que notre architecture et notre conception de l'entraînement surpassent les modèles de référence existants. En ouvrant l'accès à notre système et à nos modèles, nous espérons jeter les bases d'une nouvelle génération de modèles du monde multi-agents.
English
Existing action-conditioned video generation models (video world models) are limited to single-agent perspectives, failing to capture the multi-agent interactions of real-world environments. We introduce Solaris, a multiplayer video world model that simulates consistent multi-view observations. To enable this, we develop a multiplayer data system designed for robust, continuous, and automated data collection on video games such as Minecraft. Unlike prior platforms built for single-player settings, our system supports coordinated multi-agent interaction and synchronized videos + actions capture. Using this system, we collect 12.64 million multiplayer frames and propose an evaluation framework for multiplayer movement, memory, grounding, building, and view consistency. We train Solaris using a staged pipeline that progressively transitions from single-player to multiplayer modeling, combining bidirectional, causal, and Self Forcing training. In the final stage, we introduce Checkpointed Self Forcing, a memory-efficient Self Forcing variant that enables a longer-horizon teacher. Results show our architecture and training design outperform existing baselines. Through open-sourcing our system and models, we hope to lay the groundwork for a new generation of multi-agent world models.