Gamma-World: Generative Multi-Agenten-Weltmodellierung jenseits von zwei Spielern
Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players
May 27, 2026
Autoren: Fangfu Liu, Kai He, Tianchang Shen, Tianshi Cao, Sanja Fidler, Yueqi Duan, Jun Gao, Igor Gilitschenski, Zian Wang, Xuanchi Ren
cs.AI
Zusammenfassung
Weltmodelle für interaktive Videogenerierung haben sich bislang weitgehend auf Einzelagenten-Szenarien konzentriert, in denen zukünftige Beobachtungen aus einem einzigen Steuersignal erzeugt werden. Viele generierte Umgebungen erfordern jedoch Multi-Agenten-Interaktion: Mehrere Spieler, Roboter oder verkörperte Agenten handeln gleichzeitig in einem gemeinsamen Raum. Die Skalierung von Weltmodellen auf solche Szenarien erfordert ein prinzipienbasiertes Multi-Agenten-Design: Agenten sollten unabhängig steuerbar, permutationssymmetrisch sein und eine effiziente Inferenz unterstützen, während Konsistenz über Zeit und Perspektiven hinweg gewahrt bleibt. In diesem Beitrag stellen wir unser generatives Multi-Agenten-Weltmodell für interaktive Simulation vor. Es führt die Simplex-Rotations-Agenten-Kodierung ein, eine parameterfreie Erweiterung der 3D-RoPE, die Agenten als Eckpunkte eines regulären Simplex im Rotationswinkelraum darstellt. Dies verleiht jedem Agenten eine eindeutige Phase, macht aber alle Agenten permutationsäquivalent und ermöglicht eine skalierbare Agentenidentität ohne erlernte Slot-Identitäten oder eine feste Agentenreihenfolge. Um eine dichte All-to-All-Aufmerksamkeit zwischen Agenten zu vermeiden, schlagen wir zudem die Sparse Hub Attention vor, bei der lernbare Hub-Token die Token-Interaktion zwischen Agenten vermitteln, wodurch die agentenübergreifenden Aufmerksamkeitskosten von quadratisch auf linear in der Anzahl der Agenten reduziert werden. Für Echtzeit-Rollouts destillieren wir einen Vollkontext-Diffusionslehrer in einen kausalen Schüler, der zeitliche Blöcke sequentiell mit KV-Caching erzeugt und so eine aktionsreaktive Generierung mit 24 FPS ermöglicht. Experimente in Mehrspieler-Virtual-Umgebungen zeigen, dass unser Modell die Videotreue, die Aktionssteuerbarkeit und die Inter-Agenten-Konsistenz im Vergleich zu Slot-basierten und Dichte-Aufmerksamkeits-Baselines verbessert und dabei ohne zusätzliches Training von zwei auf vier Spieler verallgemeinert.
English
World models for interactive video generation have largely focused on single-agent settings, where future observations are generated from a single control signal. However, many generated environments require multi-agent interaction: multiple players, robots, or embodied agents act simultaneously within a shared space. Scaling world models to such settings requires a principled multi-agent design: agents should remain independently controllable, permutation-symmetric, and support efficient inference while maintaining consistency across time and perspectives. In this paper, we present our generative multi-agent world model for interactive simulation. It introduces Simplex Rotary Agent Encoding, a parameter-free extension of 3D RoPE that represents agents as vertices of a regular simplex in rotary angle space. This gives each agent a distinct phase while making all agents permutation-equivalent, enabling scalable agent identity without learned per-slot identities or a fixed agent ordering. To avoid dense all-to-all attention across agents, we further propose Sparse Hub Attention, where learnable hub tokens mediate token interaction across agents, reducing cross-agent attention cost from quadratic to linear in the number of agents. For real-time rollout, we distill a full-context diffusion teacher into a causal student that generates temporal blocks sequentially with KV caching, enabling action-responsive generation at 24 FPS. Experiments in multiplayer virtual environments show that our model improves video fidelity, action controllability, and inter-agent consistency over slot-based and dense-attention baselines, while generalizing from two to four players without additional training.