ChatPaper.aiChatPaper

Solaris: Создание модели многопользовательского видеомира в Minecraft

Solaris: Building a Multiplayer Video World Model in Minecraft

February 25, 2026
Авторы: Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie
cs.AI

Аннотация

Существующие модели генерации видео с учетом действий (видеовероятностные модели мира) ограничены перспективой одного агента и не способны улавливать многоагентные взаимодействия, характерные для реальных сред. Мы представляем Solaris — многопользовательскую видеовероятностную модель, которая симулирует согласованные многовидовые наблюдения. Для этого мы разработали систему сбора многопользовательских данных, предназначенную для надежного, непрерывного и автоматизированного сбора данных в видеоиграх, таких как Minecraft. В отличие от предыдущих платформ, созданных для одиночных режимов, наша система поддерживает скоординированное многоагентное взаимодействие и синхронную запись видео и действий. С помощью этой системы мы собрали 12,64 миллиона многопользовательских кадров и предложили оценочную систему для проверки многопользовательского перемещения, памяти, ситуационной осведомленности, строительства и согласованности видов. Мы обучаем Solaris с использованием поэтапного конвейера, который постепенно переходит от моделирования одиночного игрока к многопользовательскому, комбинируя двунаправленное, причинное обучение и обучение с самонавязыванием. На заключительном этапе мы внедряем Checkpointed Self Forcing — вариант метода самонавязывания с экономией памяти, который позволяет использовать учителя с более длительным горизонтом планирования. Результаты показывают, что наша архитектура и подход к обучению превосходят существующие базовые методы. Путем открытого публикования нашей системы и моделей мы надеемся заложить основу для нового поколения многоагентных вероятностных моделей мира.
English
Existing action-conditioned video generation models (video world models) are limited to single-agent perspectives, failing to capture the multi-agent interactions of real-world environments. We introduce Solaris, a multiplayer video world model that simulates consistent multi-view observations. To enable this, we develop a multiplayer data system designed for robust, continuous, and automated data collection on video games such as Minecraft. Unlike prior platforms built for single-player settings, our system supports coordinated multi-agent interaction and synchronized videos + actions capture. Using this system, we collect 12.64 million multiplayer frames and propose an evaluation framework for multiplayer movement, memory, grounding, building, and view consistency. We train Solaris using a staged pipeline that progressively transitions from single-player to multiplayer modeling, combining bidirectional, causal, and Self Forcing training. In the final stage, we introduce Checkpointed Self Forcing, a memory-efficient Self Forcing variant that enables a longer-horizon teacher. Results show our architecture and training design outperform existing baselines. Through open-sourcing our system and models, we hope to lay the groundwork for a new generation of multi-agent world models.
PDF182February 27, 2026