Gamma-World: Generatieve Multi-Agent Wereldmodellering Voorbij Twee Spelers

Samenvatting

Wereldmodellen voor interactieve videogeneratie hebben zich grotendeels gericht op single-agent-instellingen, waarbij toekomstige observaties worden gegenereerd op basis van één enkel controlesignaal. Veel gegenereerde omgevingen vereisen echter multi-agent-interactie: meerdere spelers, robots of belichaamde agenten handelen gelijktijdig in een gedeelde ruimte. Het opschalen van wereldmodellen naar dergelijke instellingen vereist een principieel multi-agent-ontwerp: agenten moeten onafhankelijk controleerbaar blijven, permutatiesymmetrisch zijn en efficiënte inferentie ondersteunen, terwijl consistentie over tijd en perspectieven wordt gehandhaafd. In dit artikel presenteren wij ons generatief multi-agent-wereldmodel voor interactieve simulatie. Het introduceert Simplex Rotary Agent Encoding, een parametervrije uitbreiding van 3D RoPE die agenten voorstelt als hoekpunten van een regelmatige simplex in de rotatiehoekruimte. Dit geeft elke agent een eigen fase terwijl alle agenten permutatie-equivalent worden, wat schaalbare agentidentiteit mogelijk maakt zonder aangeleerde per-slot-identiteiten of een vaste agentvolgorde. Om dichte all-to-all-aandacht tussen agenten te vermijden, stellen we verder Sparse Hub Attention voor, waarbij leerebare hub-tokens de tokeninteractie tussen agenten bemiddelen, waardoor de cross-agent-aandachtkosten van kwadratisch naar lineair in het aantal agenten worden gereduceerd. Voor real-time rollout distilleren we een full-context-diffusie-teacher in een causale student die temporele blokken sequentieel genereert met KV-caching, wat actie-responsieve generatie mogelijk maakt met 24 FPS. Experimenten in multiplayer-virtuele omgevingen tonen aan dat ons model de videogetrouwheid, actiecontroleerbaarheid en inter-agent-consistentie verbetert ten opzichte van op slots gebaseerde en dichte-aandacht-baselines, terwijl het generaliseert van twee naar vier spelers zonder extra training.

English

World models for interactive video generation have largely focused on single-agent settings, where future observations are generated from a single control signal. However, many generated environments require multi-agent interaction: multiple players, robots, or embodied agents act simultaneously within a shared space. Scaling world models to such settings requires a principled multi-agent design: agents should remain independently controllable, permutation-symmetric, and support efficient inference while maintaining consistency across time and perspectives. In this paper, we present our generative multi-agent world model for interactive simulation. It introduces Simplex Rotary Agent Encoding, a parameter-free extension of 3D RoPE that represents agents as vertices of a regular simplex in rotary angle space. This gives each agent a distinct phase while making all agents permutation-equivalent, enabling scalable agent identity without learned per-slot identities or a fixed agent ordering. To avoid dense all-to-all attention across agents, we further propose Sparse Hub Attention, where learnable hub tokens mediate token interaction across agents, reducing cross-agent attention cost from quadratic to linear in the number of agents. For real-time rollout, we distill a full-context diffusion teacher into a causal student that generates temporal blocks sequentially with KV caching, enabling action-responsive generation at 24 FPS. Experiments in multiplayer virtual environments show that our model improves video fidelity, action controllability, and inter-agent consistency over slot-based and dense-attention baselines, while generalizing from two to four players without additional training.