Gamma-World : Modélisation générative multi-agents du monde au-delà de deux joueurs

Résumé

Les modèles de monde pour la génération interactive de vidéos se sont principalement concentrés sur des contextes mono-agent, où les observations futures sont générées à partir d’un unique signal de contrôle. Cependant, de nombreux environnements générés nécessitent des interactions multi-agents : plusieurs joueurs, robots ou agents incarnés agissent simultanément dans un espace partagé. L’adaptation des modèles de monde à de tels contextes exige une conception multi-agents fondée sur des principes : les agents doivent rester indépendamment contrôlables, symétriques par permutation et permettre une inférence efficace tout en maintenant la cohérence dans le temps et entre les perspectives. Dans cet article, nous présentons notre modèle de monde génératif multi-agents pour la simulation interactive. Il introduit le codage simplex rotatoire des agents (Simplex Rotary Agent Encoding), une extension sans paramètre du RoPE 3D qui représente les agents comme les sommets d’un simplexe régulier dans l’espace des angles rotatoires. Cela confère à chaque agent une phase distincte tout en rendant tous les agents équivalents par permutation, permettant une identité agent évolutive sans identités par emplacement apprises ni ordre fixe des agents. Pour éviter une attention dense de tous vers tous entre agents, nous proposons en outre l’attention par hub sparse (Sparse Hub Attention), où des jetons hub apprenables assurent la médiation des interactions entre agents, réduisant ainsi le coût de l’attention inter-agents de quadratique à linéaire en fonction du nombre d’agents. Pour un déroulement en temps réel, nous distillons un enseignant diffusif à contexte complet en un étudiant causal qui génère des blocs temporels de manière séquentielle avec mise en cache KV, permettant une génération réactive aux actions à 24 FPS. Des expériences menées dans des environnements virtuels multi-joueurs montrent que notre modèle améliore la fidélité vidéo, la contrôlabilité des actions et la cohérence inter-agents par rapport aux approches de base par emplacements et à attention dense, tout en généralisant de deux à quatre joueurs sans entraînement supplémentaire.

English

World models for interactive video generation have largely focused on single-agent settings, where future observations are generated from a single control signal. However, many generated environments require multi-agent interaction: multiple players, robots, or embodied agents act simultaneously within a shared space. Scaling world models to such settings requires a principled multi-agent design: agents should remain independently controllable, permutation-symmetric, and support efficient inference while maintaining consistency across time and perspectives. In this paper, we present our generative multi-agent world model for interactive simulation. It introduces Simplex Rotary Agent Encoding, a parameter-free extension of 3D RoPE that represents agents as vertices of a regular simplex in rotary angle space. This gives each agent a distinct phase while making all agents permutation-equivalent, enabling scalable agent identity without learned per-slot identities or a fixed agent ordering. To avoid dense all-to-all attention across agents, we further propose Sparse Hub Attention, where learnable hub tokens mediate token interaction across agents, reducing cross-agent attention cost from quadratic to linear in the number of agents. For real-time rollout, we distill a full-context diffusion teacher into a causal student that generates temporal blocks sequentially with KV caching, enabling action-responsive generation at 24 FPS. Experiments in multiplayer virtual environments show that our model improves video fidelity, action controllability, and inter-agent consistency over slot-based and dense-attention baselines, while generalizing from two to four players without additional training.