MultiWorld: Modelli Mondiali Scalabili per Video Multi-Agente e Multi-Vista

Abstract

I modelli video del mondo hanno ottenuto un notevole successo nella simulazione delle dinamiche ambientali in risposta alle azioni degli utenti o degli agenti. Sono modellati come generatori di video condizionati da azioni che prendono come input frame storici e azioni correnti per prevedere frame futuri. Tuttavia, la maggior parte degli approcci esistenti è limitata a scenari mono-agente e non riesce a catturare le complesse interazioni intrinseche ai sistemi multi-agente del mondo reale. Presentiamo MultiWorld, un framework unificato per la modellazione del mondo multi-agente e multi-vista che consente un controllo accurato di più agenti mantenendo al contempo la coerenza multi-vista. Introduciamo il Modulo Condizione Multi-Agente per ottenere una controllabilità multi-agente precisa e il Codificatore di Stato Globale per garantire osservazioni coerenti tra diverse viste. MultiWorld supporta una scalabilità flessibile del numero di agenti e viste e sintetizza le diverse viste in parallelo per un'elevata efficienza. Esperimenti in ambienti di gioco multi-giocatore e compiti di manipolazione multi-robot dimostrano che MultiWorld supera i baseline in termini di fedeltà video, capacità di seguire le azioni e coerenza multi-vista. Pagina del progetto: https://multi-world.github.io/

English

Video world models have achieved remarkable success in simulating environmental dynamics in response to actions by users or agents. They are modeled as action-conditioned video generation models that take historical frames and current actions as input to predict future frames. Yet, most existing approaches are limited to single-agent scenarios and fail to capture the complex interactions inherent in real-world multi-agent systems. We present MultiWorld, a unified framework for multi-agent multi-view world modeling that enables accurate control of multiple agents while maintaining multi-view consistency. We introduce the Multi-Agent Condition Module to achieve precise multi-agent controllability, and the Global State Encoder to ensure coherent observations across different views. MultiWorld supports flexible scaling of agent and view counts, and synthesizes different views in parallel for high efficiency. Experiments on multi-player game environments and multi-robot manipulation tasks demonstrate that MultiWorld outperforms baselines in video fidelity, action-following ability, and multi-view consistency. Project page: https://multi-world.github.io/

MultiWorld: Modelli Mondiali Scalabili per Video Multi-Agente e Multi-Vista

MultiWorld: Scalable Multi-Agent Multi-View Video World Models

Abstract

Support