ActionParty : Liaison d'actions multi-sujets dans les jeux vidéo génératifs

Résumé

Les récents progrès en diffusion vidéo ont permis le développement de « modèles du monde » capables de simuler des environnements interactifs. Cependant, ces modèles sont largement limités à des configurations à agent unique, ne parvenant pas à contrôler simultanément plusieurs agents dans une scène. Dans ce travail, nous abordons un problème fondamental de liaison d'actions dans les modèles de diffusion vidéo existants, qui peinent à associer des actions spécifiques à leurs sujets correspondants. À cette fin, nous proposons ActionParty, un modèle du monde multi-sujets à contrôle d'action pour les jeux vidéo génératifs. Il introduit des jetons d'état de sujet, c'est-à-dire des variables latentes qui capturent de manière persistante l'état de chaque sujet dans la scène. En modélisant conjointement les jetons d'état et les latents vidéo avec un mécanisme de biais spatial, nous dissocions le rendu global de l'image vidéo des mises à jour individuelles des sujets contrôlés par des actions. Nous évaluons ActionParty sur le benchmark Melting Pot, démontrant le premier modèle du monde vidéo capable de contrôler jusqu'à sept joueurs simultanément dans 46 environnements diversifiés. Nos résultats montrent des améliorations significatives en matière de précision du suivi des actions et de cohérence d'identité, tout en permettant un suivi autorégressif robuste des sujets à travers des interactions complexes.

English

Recent advances in video diffusion have enabled the development of "world models" capable of simulating interactive environments. However, these models are largely restricted to single-agent settings, failing to control multiple agents simultaneously in a scene. In this work, we tackle a fundamental issue of action binding in existing video diffusion models, which struggle to associate specific actions with their corresponding subjects. For this purpose, we propose ActionParty, an action controllable multi-subject world model for generative video games. It introduces subject state tokens, i.e. latent variables that persistently capture the state of each subject in the scene. By jointly modeling state tokens and video latents with a spatial biasing mechanism, we disentangle global video frame rendering from individual action-controlled subject updates. We evaluate ActionParty on the Melting Pot benchmark, demonstrating the first video world model capable of controlling up to seven players simultaneously across 46 diverse environments. Our results show significant improvements in action-following accuracy and identity consistency, while enabling robust autoregressive tracking of subjects through complex interactions.

ActionParty : Liaison d'actions multi-sujets dans les jeux vidéo génératifs

ActionParty: Multi-Subject Action Binding in Generative Video Games

Résumé

Support