Gamma-World: Modelagem de Mundo Generativa Multiagente Além de Dois Jogadores

Resumo

Modelos de mundo para geração de vídeo interativa concentraram-se amplamente em configurações de agente único, onde observações futuras são geradas a partir de um único sinal de controle. No entanto, muitos ambientes gerados exigem interação multiagente: múltiplos jogadores, robôs ou agentes incorporados atuam simultaneamente em um espaço compartilhado. Escalar modelos de mundo para tais configurações requer um projeto multiagente fundamentado: os agentes devem permanecer independentemente controláveis, simétricos por permutação e suportar inferência eficiente, mantendo consistência ao longo do tempo e das perspectivas. Neste artigo, apresentamos nosso modelo de mundo multiagente generativo para simulação interativa. Ele introduz a Codificação Rotacional por Agentes Simplex, uma extensão sem parâmetros do RoPE 3D que representa agentes como vértices de um simplex regular no espaço de ângulos rotacionais. Isso atribui a cada agente uma fase distinta, tornando todos os agentes equivalentes por permutação, possibilitando uma identidade de agente escalável sem identidades aprendidas por ranhura ou uma ordenação fixa de agentes. Para evitar atenção densa de todos para todos entre agentes, propomos ainda a Atenção Hub Esparsa, onde tokens de hub aprendíveis mediam a interação de tokens entre agentes, reduzindo o custo de atenção entre agentes de quadrático para linear no número de agentes. Para implantação em tempo real, destilamos um professor de difusão de contexto completo em um aluno causal que gera blocos temporais sequencialmente com cache KV, permitindo geração responsiva a ações a 24 quadros por segundo. Experimentos em ambientes virtuais multijogador mostram que nosso modelo melhora a fidelidade do vídeo, a controlabilidade das ações e a consistência entre agentes em relação às linhas de base baseadas em ranhuras e atenção densa, generalizando de dois para quatro jogadores sem treinamento adicional.

English

World models for interactive video generation have largely focused on single-agent settings, where future observations are generated from a single control signal. However, many generated environments require multi-agent interaction: multiple players, robots, or embodied agents act simultaneously within a shared space. Scaling world models to such settings requires a principled multi-agent design: agents should remain independently controllable, permutation-symmetric, and support efficient inference while maintaining consistency across time and perspectives. In this paper, we present our generative multi-agent world model for interactive simulation. It introduces Simplex Rotary Agent Encoding, a parameter-free extension of 3D RoPE that represents agents as vertices of a regular simplex in rotary angle space. This gives each agent a distinct phase while making all agents permutation-equivalent, enabling scalable agent identity without learned per-slot identities or a fixed agent ordering. To avoid dense all-to-all attention across agents, we further propose Sparse Hub Attention, where learnable hub tokens mediate token interaction across agents, reducing cross-agent attention cost from quadratic to linear in the number of agents. For real-time rollout, we distill a full-context diffusion teacher into a causal student that generates temporal blocks sequentially with KV caching, enabling action-responsive generation at 24 FPS. Experiments in multiplayer virtual environments show that our model improves video fidelity, action controllability, and inter-agent consistency over slot-based and dense-attention baselines, while generalizing from two to four players without additional training.