MultiWorld: Modelos de Mundo Escaláveis para Vídeos Multi-Agentes e Multi-Vista

Resumo

Os modelos de mundo em vídeo alcançaram sucesso notável na simulação da dinâmica ambiental em resposta a ações de usuários ou agentes. Eles são modelados como sistemas de geração de vídeo condicionados por ações que recebem quadros históricos e ações atuais como entrada para prever quadros futuros. No entanto, a maioria das abordagens existentes limita-se a cenários de agente único e não consegue capturar as interações complexas inerentes aos sistemas multiagente do mundo real. Apresentamos o MultiWorld, uma estrutura unificada para modelagem de mundo multiagente e multivista que permite o controle preciso de múltiplos agentes mantendo a consistência multivista. Introduzimos o Módulo de Condição Multiagente para alcançar controlabilidade multiagente precisa, e o Codificador de Estado Global para garantir observações coerentes entre diferentes vistas. O MultiWorld suporta escalonamento flexível de contagens de agentes e vistas, e sintetiza diferentes vistas em paralelo para alta eficiência. Experimentos em ambientes de jogos multijogador e tarefas de manipulação multirobô demonstram que o MultiWorld supera as linhas de base em fidelidade de vídeo, capacidade de seguimento de ação e consistência multivista. Página do projeto: https://multi-world.github.io/

English

Video world models have achieved remarkable success in simulating environmental dynamics in response to actions by users or agents. They are modeled as action-conditioned video generation models that take historical frames and current actions as input to predict future frames. Yet, most existing approaches are limited to single-agent scenarios and fail to capture the complex interactions inherent in real-world multi-agent systems. We present MultiWorld, a unified framework for multi-agent multi-view world modeling that enables accurate control of multiple agents while maintaining multi-view consistency. We introduce the Multi-Agent Condition Module to achieve precise multi-agent controllability, and the Global State Encoder to ensure coherent observations across different views. MultiWorld supports flexible scaling of agent and view counts, and synthesizes different views in parallel for high efficiency. Experiments on multi-player game environments and multi-robot manipulation tasks demonstrate that MultiWorld outperforms baselines in video fidelity, action-following ability, and multi-view consistency. Project page: https://multi-world.github.io/

MultiWorld: Modelos de Mundo Escaláveis para Vídeos Multi-Agentes e Multi-Vista

MultiWorld: Scalable Multi-Agent Multi-View Video World Models

Resumo

Support