ActionParty: Vinculação de Ação Multi-Sujeito em Jogos de Vídeo Generativos

Resumo

Os recentes avanços na difusão de vídeo permitiram o desenvolvimento de "modelos de mundo" capazes de simular ambientes interativos. No entanto, esses modelos estão amplamente restritos a configurações de agente único, falhando em controlar múltiplos agentes simultaneamente em uma cena. Neste trabalho, abordamos um problema fundamental de vinculação de ações nos modelos de difusão de vídeo existentes, que lutam para associar ações específicas aos seus sujeitos correspondentes. Para esse fim, propomos o ActionParty, um modelo de mundo multi-sujeito com controle de ação para jogos de vídeo generativos. Ele introduz *tokens* de estado do sujeito, ou seja, variáveis latentes que capturam persistentemente o estado de cada sujeito na cena. Ao modelar conjuntamente os *tokens* de estado e os latentes de vídeo com um mecanismo de viés espacial, separamos a renderização global do *frame* de vídeo das atualizações individuais dos sujeitos controlados por ação. Avaliamos o ActionParty no *benchmark* Melting Pot, demonstrando o primeiro modelo de mundo de vídeo capaz de controlar até sete jogadores simultaneamente em 46 ambientes diversos. Nossos resultados mostram melhorias significativas na precisão de seguimento de ação e na consistência de identidade, ao mesmo tempo que permitem o rastreamento autoregressivo robusto de sujeitos através de interações complexas.

English

Recent advances in video diffusion have enabled the development of "world models" capable of simulating interactive environments. However, these models are largely restricted to single-agent settings, failing to control multiple agents simultaneously in a scene. In this work, we tackle a fundamental issue of action binding in existing video diffusion models, which struggle to associate specific actions with their corresponding subjects. For this purpose, we propose ActionParty, an action controllable multi-subject world model for generative video games. It introduces subject state tokens, i.e. latent variables that persistently capture the state of each subject in the scene. By jointly modeling state tokens and video latents with a spatial biasing mechanism, we disentangle global video frame rendering from individual action-controlled subject updates. We evaluate ActionParty on the Melting Pot benchmark, demonstrating the first video world model capable of controlling up to seven players simultaneously across 46 diverse environments. Our results show significant improvements in action-following accuracy and identity consistency, while enabling robust autoregressive tracking of subjects through complex interactions.

ActionParty: Vinculação de Ação Multi-Sujeito em Jogos de Vídeo Generativos

ActionParty: Multi-Subject Action Binding in Generative Video Games

Resumo

Support