MultiWorld: Modelos Mundiales Multiagente y Multivista Escalables para Vídeo

Resumen

Los modelos de video del mundo han logrado un éxito notable en la simulación de dinámicas ambientales en respuesta a acciones de usuarios o agentes. Se modelan como sistemas de generación de video condicionados por acciones que toman frames históricos y acciones actuales como entrada para predecir frames futuros. Sin embargo, la mayoría de los enfoques existentes se limitan a escenarios de agente único y no logran capturar las interacciones complejas inherentes a los sistemas multiagente del mundo real. Presentamos MultiWorld, un marco unificado para el modelado del mundo multiagente y multivista que permite el control preciso de múltiples agentes manteniendo la consistencia multivista. Introducimos el Módulo de Condición Multiagente para lograr una controlabilidad multiagente precisa, y el Codificador de Estado Global para garantizar observaciones coherentes en diferentes vistas. MultiWorld admite la escalabilidad flexible de recuentos de agentes y vistas, y sintetiza diferentes vistas en paralelo para una alta eficiencia. Los experimentos en entornos de juegos multijugador y tareas de manipulación multirobot demuestran que MultiWorld supera a los métodos base en fidelidad de video, capacidad de seguimiento de acciones y consistencia multivista. Página del proyecto: https://multi-world.github.io/

English

Video world models have achieved remarkable success in simulating environmental dynamics in response to actions by users or agents. They are modeled as action-conditioned video generation models that take historical frames and current actions as input to predict future frames. Yet, most existing approaches are limited to single-agent scenarios and fail to capture the complex interactions inherent in real-world multi-agent systems. We present MultiWorld, a unified framework for multi-agent multi-view world modeling that enables accurate control of multiple agents while maintaining multi-view consistency. We introduce the Multi-Agent Condition Module to achieve precise multi-agent controllability, and the Global State Encoder to ensure coherent observations across different views. MultiWorld supports flexible scaling of agent and view counts, and synthesizes different views in parallel for high efficiency. Experiments on multi-player game environments and multi-robot manipulation tasks demonstrate that MultiWorld outperforms baselines in video fidelity, action-following ability, and multi-view consistency. Project page: https://multi-world.github.io/

MultiWorld: Modelos Mundiales Multiagente y Multivista Escalables para Vídeo

MultiWorld: Scalable Multi-Agent Multi-View Video World Models

Resumen

Support