ActionParty: Мультисубъектное связывание действий в генеративных видеоиграх

Аннотация

Последние достижения в области видео-диффузии позволили создать «модели мира», способные симулировать интерактивные среды. Однако эти модели в основном ограничены однозадачными сценариями и не способны одновременно управлять несколькими агентами в сцене. В данной работе мы решаем фундаментальную проблему привязки действий в существующих моделях видео-диффузии, которые с трудом связывают конкретные действия с соответствующими субъектами. Для этой цели мы предлагаем ActionParty — управляемую действиями модель мира с несколькими субъектами для генеративных видеоигр. Она вводит токены состояний субъектов, то есть латентные переменные, которые постоянно фиксируют состояние каждого субъекта в сцене. Совместно моделируя токены состояний и видео-латенты с помощью механизма пространственного смещения, мы разделяем глобальную отрисовку видео-кадра и индивидуальные обновления субъектов, управляемые действиями. Мы оцениваем ActionParty на бенчмарке Melting Pot, демонстрируя первую модель видео-мира, способную одновременно управлять до семью игроками в 46 различных средах. Наши результаты показывают значительное улучшение точности следования действиям и согласованности идентичности, обеспечивая при этом надежное авторегрессионное отслеживание субъектов в условиях сложных взаимодействий.

English

Recent advances in video diffusion have enabled the development of "world models" capable of simulating interactive environments. However, these models are largely restricted to single-agent settings, failing to control multiple agents simultaneously in a scene. In this work, we tackle a fundamental issue of action binding in existing video diffusion models, which struggle to associate specific actions with their corresponding subjects. For this purpose, we propose ActionParty, an action controllable multi-subject world model for generative video games. It introduces subject state tokens, i.e. latent variables that persistently capture the state of each subject in the scene. By jointly modeling state tokens and video latents with a spatial biasing mechanism, we disentangle global video frame rendering from individual action-controlled subject updates. We evaluate ActionParty on the Melting Pot benchmark, demonstrating the first video world model capable of controlling up to seven players simultaneously across 46 diverse environments. Our results show significant improvements in action-following accuracy and identity consistency, while enabling robust autoregressive tracking of subjects through complex interactions.

ActionParty: Мультисубъектное связывание действий в генеративных видеоиграх

ActionParty: Multi-Subject Action Binding in Generative Video Games

Аннотация

Support