ActionParty: Multisubjekt-Aktionsbindung in generativen Videospielen

Zusammenfassung

Jüngste Fortschritte in der Videodiffusion haben die Entwicklung von „Weltmodellen“ ermöglicht, die in der Lage sind, interaktive Umgebungen zu simulieren. Diese Modelle sind jedoch weitgehend auf Einzelagenten-Szenarien beschränkt und können nicht mehrere Akteure gleichzeitig in einer Szene steuern. In dieser Arbeit behandeln wir ein grundlegendes Problem der Aktionsbindung in bestehenden Videodiffusionsmodellen, denen es schwerfällt, spezifische Aktionen ihren entsprechenden Subjekten zuzuordnen. Zu diesem Zweck schlagen wir ActionParty vor, ein aktionssteuerbares Multi-Subjekt-Weltmodell für generative Videospiele. Es führt Subjekt-Zustands-Tokens ein, d. h. latente Variablen, die den Zustand jedes Subjekts in der Szene persistent erfassen. Durch die gemeinsame Modellierung von Zustands-Tokens und videolatenzen mit einem räumlichen Bias-Mechanismus entkoppeln wir das Rendering globaler Videobilder von individuellen, aktionsgesteuerten Subjektaktualisierungen. Wir evaluieren ActionParty auf dem Melting-Pot-Benchmark und demonstrieren damit das erste Videoweltmodell, das bis zu sieben Spieler gleichzeitig in 46 verschiedenen Umgebungen steuern kann. Unsere Ergebnisse zeigen signifikante Verbesserungen bei der Aktionsbefolgungsgenauigkeit und Identitätskonsistenz und ermöglichen gleichzeitig ein robustes autoregressives Tracking von Subjekten durch komplexe Interaktionen.

English

Recent advances in video diffusion have enabled the development of "world models" capable of simulating interactive environments. However, these models are largely restricted to single-agent settings, failing to control multiple agents simultaneously in a scene. In this work, we tackle a fundamental issue of action binding in existing video diffusion models, which struggle to associate specific actions with their corresponding subjects. For this purpose, we propose ActionParty, an action controllable multi-subject world model for generative video games. It introduces subject state tokens, i.e. latent variables that persistently capture the state of each subject in the scene. By jointly modeling state tokens and video latents with a spatial biasing mechanism, we disentangle global video frame rendering from individual action-controlled subject updates. We evaluate ActionParty on the Melting Pot benchmark, demonstrating the first video world model capable of controlling up to seven players simultaneously across 46 diverse environments. Our results show significant improvements in action-following accuracy and identity consistency, while enabling robust autoregressive tracking of subjects through complex interactions.

ActionParty: Multisubjekt-Aktionsbindung in generativen Videospielen

ActionParty: Multi-Subject Action Binding in Generative Video Games

Zusammenfassung

Support