Gamma-World: Modelado Generativo del Mundo Multi-Agente Más Allá de Dos Jugadores

Resumen

Los modelos del mundo para la generación de video interactivo se han centrado en gran medida en entornos de un solo agente, donde las observaciones futuras se generan a partir de una única señal de control. Sin embargo, muchos entornos generados requieren interacción multiagente: múltiples jugadores, robots o agentes corporizados actúan simultáneamente en un espacio compartido. Escalar los modelos del mundo a dichos entornos requiere un diseño multiagente fundamentado: los agentes deben permanecer controlables de forma independiente, ser simétricos por permutaciones y permitir una inferencia eficiente manteniendo la consistencia a lo largo del tiempo y las perspectivas. En este artículo presentamos nuestro modelo del mundo generativo multiagente para simulación interactiva. Este introduce la Codificación Rotacional de Agente Simplex, una extensión sin parámetros de RoPE 3D que representa a los agentes como vértices de un simplex regular en el espacio de ángulos rotacionales. Esto otorga a cada agente una fase distinta, al tiempo que hace que todos los agentes sean equivalentes por permutaciones, permitiendo una identidad de agente escalable sin identidades aprendidas por ranura ni un ordenamiento fijo de agentes. Para evitar la atención densa todos-contra-todos entre agentes, proponemos además la Atención Hub Dispersa, donde tokens hub aprendibles median la interacción de tokens entre agentes, reduciendo el costo de atención entre agentes de cuadrático a lineal en el número de agentes. Para la ejecución en tiempo real, destilamos un profesor de difusión de contexto completo en un estudiante causal que genera bloques temporales de forma secuencial con almacenamiento en caché KV, permitiendo una generación sensible a la acción a 24 FPS. Experimentos en entornos virtuales multijugador muestran que nuestro modelo mejora la fidelidad del video, la controlabilidad de la acción y la consistencia entre agentes en comparación con las líneas base basadas en ranuras y atención densa, además de generalizar de dos a cuatro jugadores sin entrenamiento adicional.

English

World models for interactive video generation have largely focused on single-agent settings, where future observations are generated from a single control signal. However, many generated environments require multi-agent interaction: multiple players, robots, or embodied agents act simultaneously within a shared space. Scaling world models to such settings requires a principled multi-agent design: agents should remain independently controllable, permutation-symmetric, and support efficient inference while maintaining consistency across time and perspectives. In this paper, we present our generative multi-agent world model for interactive simulation. It introduces Simplex Rotary Agent Encoding, a parameter-free extension of 3D RoPE that represents agents as vertices of a regular simplex in rotary angle space. This gives each agent a distinct phase while making all agents permutation-equivalent, enabling scalable agent identity without learned per-slot identities or a fixed agent ordering. To avoid dense all-to-all attention across agents, we further propose Sparse Hub Attention, where learnable hub tokens mediate token interaction across agents, reducing cross-agent attention cost from quadratic to linear in the number of agents. For real-time rollout, we distill a full-context diffusion teacher into a causal student that generates temporal blocks sequentially with KV caching, enabling action-responsive generation at 24 FPS. Experiments in multiplayer virtual environments show that our model improves video fidelity, action controllability, and inter-agent consistency over slot-based and dense-attention baselines, while generalizing from two to four players without additional training.