Solaris: Construindo um Modelo de Mundo de Vídeo Multijogador em Minecraft
Solaris: Building a Multiplayer Video World Model in Minecraft
February 25, 2026
Autores: Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie
cs.AI
Resumo
Os modelos existentes de geração de vídeo condicionada por ações (modelos de mundo em vídeo) estão limitados a perspectivas de agente único, não conseguindo capturar as interações multiagentes dos ambientes do mundo real. Apresentamos Solaris, um modelo de mundo em vídeo multijogador que simula observações consistentes de múltiplas perspectivas. Para viabilizar isto, desenvolvemos um sistema de dados multijogador concebido para uma recolha de dados robusta, contínua e automatizada em videojogos como o Minecraft. Ao contrário de plataformas anteriores construídas para ambientes de um único jogador, o nosso sistema suporta interação multiagente coordenada e a captura sincronizada de vídeos + ações. Utilizando este sistema, recolhemos 12,64 milhões de frames multijogador e propomos um quadro de avaliação para movimento multijogador, memória, contextualização, construção e consistência de perspetiva. Treinamos o Solaris usando um pipeline em fases que transita progressivamente da modelação single-player para multijogador, combinando treino bidirecional, causal e de Autoforçamento. Na fase final, introduzimos o Autoforçamento com Pontos de Controlo, uma variante eficiente em memória do Autoforçamento que permite um professor de horizonte mais longo. Os resultados mostram que a nossa arquitetura e desenho de treino superam as linhas de base existentes. Ao disponibilizar em código aberto o nosso sistema e modelos, esperamos lançar as bases para uma nova geração de modelos de mundo multiagente.
English
Existing action-conditioned video generation models (video world models) are limited to single-agent perspectives, failing to capture the multi-agent interactions of real-world environments. We introduce Solaris, a multiplayer video world model that simulates consistent multi-view observations. To enable this, we develop a multiplayer data system designed for robust, continuous, and automated data collection on video games such as Minecraft. Unlike prior platforms built for single-player settings, our system supports coordinated multi-agent interaction and synchronized videos + actions capture. Using this system, we collect 12.64 million multiplayer frames and propose an evaluation framework for multiplayer movement, memory, grounding, building, and view consistency. We train Solaris using a staged pipeline that progressively transitions from single-player to multiplayer modeling, combining bidirectional, causal, and Self Forcing training. In the final stage, we introduce Checkpointed Self Forcing, a memory-efficient Self Forcing variant that enables a longer-horizon teacher. Results show our architecture and training design outperform existing baselines. Through open-sourcing our system and models, we hope to lay the groundwork for a new generation of multi-agent world models.