Gamma-World: Генеративное многоагентное моделирование мира, выходящее за рамки двух игроков

Аннотация

Модели мира для интерактивной генерации видео в значительной степени ориентировались на однопользовательские сценарии, где будущие наблюдения порождаются из единственного управляющего сигнала. Однако многие генерируемые среды требуют взаимодействия нескольких агентов: множество игроков, роботов или воплощенных агентов действуют одновременно в общем пространстве. Масштабирование моделей мира на такие условия требует принципиального многопользовательского дизайна: агенты должны оставаться независимо управляемыми, перестановочно-симметричными и поддерживать эффективные вычисления, сохраняя согласованность во времени и с разных точек зрения. В данной статье мы представляем нашу генеративную многопользовательскую модель мира для интерактивной симуляции. Она включает Simplex Rotary Agent Encoding — расширение 3D RoPE без дополнительных параметров, которое представляет агентов как вершины правильного симплекса в пространстве углов поворота. Это дает каждому агенту отдельную фазу, делая всех агентов эквивалентными относительно перестановок, что обеспечивает масштабируемую идентичность агентов без использования изученных идентификаторов для отдельных слотов или фиксированного порядка агентов. Чтобы избежать полного попарного взаимодействия между агентами, мы дополнительно предлагаем Sparse Hub Attention, где обучаемые хабы-токены опосредуют взаимодействие токенов между агентами, снижая стоимость перекрестного внимания с квадратичной до линейной относительно числа агентов. Для работы в реальном времени мы дистиллируем full-context диффузионный учитель в каузального ученика, который последовательно генерирует временные блоки с кэшированием KV, обеспечивая генерацию, реагирующую на действия, со скоростью 24 FPS. Эксперименты в многопользовательских виртуальных средах показывают, что наша модель улучшает качество видео, управляемость действий и согласованность между агентами по сравнению с базовыми подходами на основе слотов и плотного внимания, при этом обобщаясь с двух до четырех игроков без дополнительного обучения.

English

World models for interactive video generation have largely focused on single-agent settings, where future observations are generated from a single control signal. However, many generated environments require multi-agent interaction: multiple players, robots, or embodied agents act simultaneously within a shared space. Scaling world models to such settings requires a principled multi-agent design: agents should remain independently controllable, permutation-symmetric, and support efficient inference while maintaining consistency across time and perspectives. In this paper, we present our generative multi-agent world model for interactive simulation. It introduces Simplex Rotary Agent Encoding, a parameter-free extension of 3D RoPE that represents agents as vertices of a regular simplex in rotary angle space. This gives each agent a distinct phase while making all agents permutation-equivalent, enabling scalable agent identity without learned per-slot identities or a fixed agent ordering. To avoid dense all-to-all attention across agents, we further propose Sparse Hub Attention, where learnable hub tokens mediate token interaction across agents, reducing cross-agent attention cost from quadratic to linear in the number of agents. For real-time rollout, we distill a full-context diffusion teacher into a causal student that generates temporal blocks sequentially with KV caching, enabling action-responsive generation at 24 FPS. Experiments in multiplayer virtual environments show that our model improves video fidelity, action controllability, and inter-agent consistency over slot-based and dense-attention baselines, while generalizing from two to four players without additional training.