MultiWorld: Масштабируемые Мульти-Агентные Мульти-Вью Модели Мира для Видео
MultiWorld: Scalable Multi-Agent Multi-View Video World Models
April 20, 2026
Авторы: Haoyu Wu, Jiwen Yu, Yingtian Zou, Xihui Liu
cs.AI
Аннотация
Видеомодели мира достигли значительных успехов в моделировании динамики окружающей среды в ответ на действия пользователей или агентов. Они реализуются как модели генерации видео, обусловленные действиями, которые принимают исторические кадры и текущие действия в качестве входных данных для предсказания будущих кадров. Однако большинство существующих подходов ограничены сценариями с одним агентом и не способны охватить сложные взаимодействия, присущие реальным многoагентным системам. Мы представляем MultiWorld — унифицированную архитектуру для многoагентного многoвидового моделирования мира, которая обеспечивает точное управление несколькими агентами при сохранении многoвидовой согласованности. Мы вводим Многoагентный модуль условий для достижения точной управляемости множеством агентов и Глобальный кодировщик состояния для обеспечения согласованных наблюдений в различных ракурсах. MultiWorld поддерживает гибкое масштабирование количества агентов и ракурсов, а также синтезирует разные виды параллельно для высокой эффективности. Эксперименты в средах многoпользовательских игр и задачах многoроботного манипулирования демонстрируют, что MultiWorld превосходит базовые методы по точности видео, способности следовать действиям и многoвидовой согласованности. Страница проекта: https://multi-world.github.io/
English
Video world models have achieved remarkable success in simulating environmental dynamics in response to actions by users or agents. They are modeled as action-conditioned video generation models that take historical frames and current actions as input to predict future frames. Yet, most existing approaches are limited to single-agent scenarios and fail to capture the complex interactions inherent in real-world multi-agent systems. We present MultiWorld, a unified framework for multi-agent multi-view world modeling that enables accurate control of multiple agents while maintaining multi-view consistency. We introduce the Multi-Agent Condition Module to achieve precise multi-agent controllability, and the Global State Encoder to ensure coherent observations across different views. MultiWorld supports flexible scaling of agent and view counts, and synthesizes different views in parallel for high efficiency. Experiments on multi-player game environments and multi-robot manipulation tasks demonstrate that MultiWorld outperforms baselines in video fidelity, action-following ability, and multi-view consistency. Project page: https://multi-world.github.io/