ActionParty: Multi-Subjectieve Actieverbinding in Generatieve Videogames

Samenvatting

Recente vooruitgang in videodiffusie heeft de ontwikkeling mogelijk gemaakt van "wereldmodellen" die interactieve omgevingen kunnen simuleren. Deze modellen zijn echter grotendeels beperkt tot settings met één agent, waarbij het niet lukt om meerdere agenten gelijktijdig in een scène aan te sturen. In dit werk pakken we een fundamenteel probleem aan van actie-binding in bestaande videodiffusiemodellen, die moeite hebben om specifieke acties aan hun bijbehorende subjecten te koppelen. Hiertoe stellen we ActionParty voor, een actiebestuurbaar wereldmodel voor meerdere subjecten voor generatieve videospellen. Het introduceert subject-toestandstokens, latente variabelen die de toestand van elk subject in de scène persistent vastleggen. Door staatstokens en videolatenten gezamenlijk te modelleren met een ruimtelijk bias-mechanisme, ontwarren we het globaal renderen van videoframes van individuele, actiegestuurde subjectupdates. We evalueren ActionParty op de Melting Pot-benchmark en tonen het eerste videowereldmodel aan dat tot zeven spelers gelijktijdig kan aansturen in 46 diverse omgevingen. Onze resultaten tonen significante verbeteringen in actie-opvolgingsnauwkeurigheid en identiteitsconsistentie, terwijl robuuste autoregressieve tracking van subjecten door complexe interacties mogelijk wordt.

English

Recent advances in video diffusion have enabled the development of "world models" capable of simulating interactive environments. However, these models are largely restricted to single-agent settings, failing to control multiple agents simultaneously in a scene. In this work, we tackle a fundamental issue of action binding in existing video diffusion models, which struggle to associate specific actions with their corresponding subjects. For this purpose, we propose ActionParty, an action controllable multi-subject world model for generative video games. It introduces subject state tokens, i.e. latent variables that persistently capture the state of each subject in the scene. By jointly modeling state tokens and video latents with a spatial biasing mechanism, we disentangle global video frame rendering from individual action-controlled subject updates. We evaluate ActionParty on the Melting Pot benchmark, demonstrating the first video world model capable of controlling up to seven players simultaneously across 46 diverse environments. Our results show significant improvements in action-following accuracy and identity consistency, while enabling robust autoregressive tracking of subjects through complex interactions.

ActionParty: Multi-Subjectieve Actieverbinding in Generatieve Videogames

ActionParty: Multi-Subject Action Binding in Generative Video Games

Samenvatting

Support