ChatPaper.aiChatPaper

Solaris: Aufbau eines Multiplayer-Video-Weltmodells in Minecraft

Solaris: Building a Multiplayer Video World Model in Minecraft

February 25, 2026
papers.authors: Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie
cs.AI

papers.abstract

Bestehende aktionskonditionierte Videogenerierungsmodelle (Video-World-Models) sind auf Einzelagenten-Perspektiven beschränkt und erfassen nicht die Multi-Agenten-Interaktionen realer Umgebungen. Wir stellen Solaris vor, ein Multiplayer-Video-World-Model, das konsistente Multi-Perspektiven-Beobachtungen simuliert. Um dies zu ermöglichen, entwickeln wir ein Multiplayer-Datensystem, das für robuste, kontinuierliche und automatisierte Datenerfassung in Videospielen wie Minecraft konzipiert ist. Im Gegensatz zu früheren Plattformen für Einzelspieler-Szenarien unterstützt unser System koordinierte Multi-Agenten-Interaktion und synchronisierte Erfassung von Videos und Aktionen. Mit diesem System erfassen wir 12,64 Millionen Multiplayer-Frames und schlagen ein Evaluierungsframework für Multiplayer-Bewegung, Gedächtnis, Verankerung, Konstruktion und Sichtkonsistenz vor. Wir trainieren Solaris mit einer gestuften Pipeline, die schrittweise von der Einzelspieler- zur Multiplayer-Modellierung übergeht und dabei bidirektionales, kausales und Self-Forcing-Training kombiniert. In der letzten Stufe führen wir Checkpointed Self Forcing ein, eine speichereffiziente Self-Forcing-Variante, die einen Lehrer mit längerem Planungshorizont ermöglicht. Die Ergebnisse zeigen, dass unsere Architektur und Trainingsgestaltung vorhandene Baseline-Modelle übertreffen. Durch die Open-Source-Veröffentlichung unseres Systems und unserer Modelle hoffen wir, die Grundlage für eine neue Generation von Multi-Agenten-World-Models zu legen.
English
Existing action-conditioned video generation models (video world models) are limited to single-agent perspectives, failing to capture the multi-agent interactions of real-world environments. We introduce Solaris, a multiplayer video world model that simulates consistent multi-view observations. To enable this, we develop a multiplayer data system designed for robust, continuous, and automated data collection on video games such as Minecraft. Unlike prior platforms built for single-player settings, our system supports coordinated multi-agent interaction and synchronized videos + actions capture. Using this system, we collect 12.64 million multiplayer frames and propose an evaluation framework for multiplayer movement, memory, grounding, building, and view consistency. We train Solaris using a staged pipeline that progressively transitions from single-player to multiplayer modeling, combining bidirectional, causal, and Self Forcing training. In the final stage, we introduce Checkpointed Self Forcing, a memory-efficient Self Forcing variant that enables a longer-horizon teacher. Results show our architecture and training design outperform existing baselines. Through open-sourcing our system and models, we hope to lay the groundwork for a new generation of multi-agent world models.
PDF182February 27, 2026