ActionParty: Vinculación de Acciones Multi-Sujeto en Videojuegos Generativos

Resumen

Los recientes avances en difusión de video han permitido el desarrollo de "modelos de mundo" capaces de simular entornos interactivos. Sin embargo, estos modelos se limitan en gran medida a entornos de agente único, sin poder controlar múltiples agentes simultáneamente en una escena. En este trabajo, abordamos un problema fundamental de la vinculación de acciones en los modelos de difusión de video existentes, los cuales tienen dificultades para asociar acciones específicas con sus sujetos correspondientes. Con este propósito, proponemos ActionParty, un modelo de mundo multi-sujeto con control de acciones para videojuegos generativos. Este introduce tokens de estado del sujeto, es decir, variables latentes que capturan de manera persistente el estado de cada sujeto en la escena. Al modelar conjuntamente los tokens de estado y los latentes de video con un mecanismo de sesgo espacial, separamos la renderización global del fotograma de video de las actualizaciones individuales de los sujetos controlados por acciones. Evaluamos ActionParty en el benchmark Melting Pot, demostrando el primer modelo de mundo de video capaz de controlar hasta siete jugadores simultáneamente en 46 entornos diversos. Nuestros resultados muestran mejoras significativas en la precisión del seguimiento de acciones y la consistencia de identidad, a la vez que permiten un seguimiento autorregresivo robusto de los sujetos a través de interacciones complejas.

English

Recent advances in video diffusion have enabled the development of "world models" capable of simulating interactive environments. However, these models are largely restricted to single-agent settings, failing to control multiple agents simultaneously in a scene. In this work, we tackle a fundamental issue of action binding in existing video diffusion models, which struggle to associate specific actions with their corresponding subjects. For this purpose, we propose ActionParty, an action controllable multi-subject world model for generative video games. It introduces subject state tokens, i.e. latent variables that persistently capture the state of each subject in the scene. By jointly modeling state tokens and video latents with a spatial biasing mechanism, we disentangle global video frame rendering from individual action-controlled subject updates. We evaluate ActionParty on the Melting Pot benchmark, demonstrating the first video world model capable of controlling up to seven players simultaneously across 46 diverse environments. Our results show significant improvements in action-following accuracy and identity consistency, while enabling robust autoregressive tracking of subjects through complex interactions.

ActionParty: Vinculación de Acciones Multi-Sujeto en Videojuegos Generativos

ActionParty: Multi-Subject Action Binding in Generative Video Games

Resumen

Support