ソラリス:マインクラフトにおけるマルチプレイヤー映像世界モデルの構築
Solaris: Building a Multiplayer Video World Model in Minecraft
February 25, 2026
著者: Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie
cs.AI
要旨
既存の行動条件付き動画生成モデル(ビデオ世界モデル)は単一エージェント視点に限定され、現実環境の多エージェント相互作用を捉えることができません。本論文では、一貫性のあるマルチビュー観測をシミュレートするマルチプレイヤービデオ世界モデル「Solaris」を提案します。これを実現するため、Minecraftなどのビデオゲームにおける堅牢で継続的かつ自動化されたデータ収集のために設計されたマルチプレイヤーデータシステムを開発しました。従来のシングルプレイヤー環境向けプラットフォームとは異なり、本システムは協調的なマルチエージェント相互作用と、動画と行動の同期収集をサポートします。このシステムを用いて1,264万フレームのマルチプレイヤーデータを収集し、マルチプレイヤーにおける移動、記憶、接地、建築、視点一貫性の評価フレームワークを提案します。Solarisは、単一プレイヤーからマルチプレイヤーモデリングへ段階的に移行するパイプラインで訓練し、双方向性、因果性、およびSelf Forcing訓練を組み合わせています。最終段階では、メモリ効率の良いSelf Forcing変種であるCheckpointed Self Forcingを導入し、より長い時間軸の教師を可能にしました。結果として、当社のアーキテクチャと訓練設計が既存のベースラインを上回ることを示します。システムとモデルのオープンソース化を通じて、新世代のマルチエージェント世界モデルの基盤を築くことを目指します。
English
Existing action-conditioned video generation models (video world models) are limited to single-agent perspectives, failing to capture the multi-agent interactions of real-world environments. We introduce Solaris, a multiplayer video world model that simulates consistent multi-view observations. To enable this, we develop a multiplayer data system designed for robust, continuous, and automated data collection on video games such as Minecraft. Unlike prior platforms built for single-player settings, our system supports coordinated multi-agent interaction and synchronized videos + actions capture. Using this system, we collect 12.64 million multiplayer frames and propose an evaluation framework for multiplayer movement, memory, grounding, building, and view consistency. We train Solaris using a staged pipeline that progressively transitions from single-player to multiplayer modeling, combining bidirectional, causal, and Self Forcing training. In the final stage, we introduce Checkpointed Self Forcing, a memory-efficient Self Forcing variant that enables a longer-horizon teacher. Results show our architecture and training design outperform existing baselines. Through open-sourcing our system and models, we hope to lay the groundwork for a new generation of multi-agent world models.