ChatPaper.aiChatPaper

MultiWorld: Schaalbare Multi-Agent Multi-View Video Wereldmodellen

MultiWorld: Scalable Multi-Agent Multi-View Video World Models

April 20, 2026
Auteurs: Haoyu Wu, Jiwen Yu, Yingtian Zou, Xihui Liu
cs.AI

Samenvatting

Videowereldmodellen hebben opmerkelijke successen geboekt in het simuleren van omgevingsdynamiek als reactie op acties van gebruikers of agenten. Ze worden gemodelleerd als actie-geconditioneerde videogeneratiemodellen die historische frames en huidige acties als invoer nemen om toekomstige frames te voorspellen. Toch zijn de meeste bestaande benaderingen beperkt tot scenario's met één agent en slagen ze er niet in de complexe interacties die inherent zijn aan echte multi-agent systemen vast te leggen. Wij presenteren MultiWorld, een uniform raamwerk voor wereldmodellering met meerdere agenten en meerdere perspectieven, dat nauwkeurige besturing van meerdere agenten mogelijk maakt terwijl consistentie tussen de verschillende perspectieven behouden blijft. We introduceren de Multi-Agent Condition Module om precieze multi-agent bestuurbaarheid te bereiken, en de Global State Encoder om coherente observaties tussen verschillende perspectieven te waarborgen. MultiWorld ondersteunt flexibele schaling van het aantal agenten en perspectieven, en synthetiseert verschillende perspectieven parallel voor hoge efficiëntie. Experimenten in multi-player game-omgevingen en multi-robot manipulatietaken tonen aan dat MultiWorld de baseline-methoden overtreft op het gebied van videokwaliteit, actie-volgvermogen en consistentie tussen meerdere perspectieven. Projectpagina: https://multi-world.github.io/
English
Video world models have achieved remarkable success in simulating environmental dynamics in response to actions by users or agents. They are modeled as action-conditioned video generation models that take historical frames and current actions as input to predict future frames. Yet, most existing approaches are limited to single-agent scenarios and fail to capture the complex interactions inherent in real-world multi-agent systems. We present MultiWorld, a unified framework for multi-agent multi-view world modeling that enables accurate control of multiple agents while maintaining multi-view consistency. We introduce the Multi-Agent Condition Module to achieve precise multi-agent controllability, and the Global State Encoder to ensure coherent observations across different views. MultiWorld supports flexible scaling of agent and view counts, and synthesizes different views in parallel for high efficiency. Experiments on multi-player game environments and multi-robot manipulation tasks demonstrate that MultiWorld outperforms baselines in video fidelity, action-following ability, and multi-view consistency. Project page: https://multi-world.github.io/
PDF374April 22, 2026