MultiWorld : Modèles de Monde Vidéo Multi-Agents Multi-Vues Évolutifs

Résumé

Les modèles de monde vidéo ont obtenu un succès remarquable dans la simulation des dynamiques environnementales en réponse aux actions des utilisateurs ou des agents. Ils sont conçus comme des modèles de génération vidéo conditionnés par les actions, prenant en entrée les images historiques et les actions actuelles pour prédire les images futures. Cependant, la plupart des approches existantes se limitent à des scénarios à agent unique et ne parviennent pas à capturer les interactions complexes inhérentes aux systèmes multi-agents du monde réel. Nous présentons MultiWorld, un cadre unifié pour la modélisation de monde multi-agents et multi-vues permettant un contrôle précis de plusieurs agents tout en maintenant la cohérence multi-vue. Nous introduisons le Module de Condition Multi-Agents pour atteindre une contrôlabilité multi-agents précise, et l'Encodeur d'État Global pour assurer des observations cohérentes entre les différentes vues. MultiWorld supporte une mise à l'échelle flexible du nombre d'agents et de vues, et synthétise les différentes vues en parallèle pour une haute efficacité. Les expériences sur des environnements de jeu multijoueurs et des tâches de manipulation multi-robots démontrent que MultiWorld surpasse les méthodes de référence en fidélité vidéo, capacité de suivi des actions et cohérence multi-vue. Page du projet : https://multi-world.github.io/

English

Video world models have achieved remarkable success in simulating environmental dynamics in response to actions by users or agents. They are modeled as action-conditioned video generation models that take historical frames and current actions as input to predict future frames. Yet, most existing approaches are limited to single-agent scenarios and fail to capture the complex interactions inherent in real-world multi-agent systems. We present MultiWorld, a unified framework for multi-agent multi-view world modeling that enables accurate control of multiple agents while maintaining multi-view consistency. We introduce the Multi-Agent Condition Module to achieve precise multi-agent controllability, and the Global State Encoder to ensure coherent observations across different views. MultiWorld supports flexible scaling of agent and view counts, and synthesizes different views in parallel for high efficiency. Experiments on multi-player game environments and multi-robot manipulation tasks demonstrate that MultiWorld outperforms baselines in video fidelity, action-following ability, and multi-view consistency. Project page: https://multi-world.github.io/

MultiWorld : Modèles de Monde Vidéo Multi-Agents Multi-Vues Évolutifs

MultiWorld: Scalable Multi-Agent Multi-View Video World Models

Résumé

Support