Заклинание: естественный язык как интерфейс действий для многосущностных видеомоделей мира

Аннотация

Современные интерактивные видеомировые модели достигли впечатляющей визуальной точности, однако им недостает детального управления множеством сущностей и обобщения между сущностями и мирами. Мы связываем этот пробел с интерфейсом действий: стандартные протоколы управления (например, идентификаторы анимации, ввод с устройств, подписи на уровне сцены) привязывают семантику действий к конкретным сущностям или движкам на этапе проектирования. Мы предлагаем естественный язык в качестве интерфейса для раскрытия выразительности, недоступной ни одному предыдущему интерфейсу, и представляем Incantation — первую интерактивную видеомировую модель с естественно-языковым кондиционированием на каждый латентный кадр (0,25 с), которая поддерживает одновременное управление несколькими сущностями и концептуальный перенос между сущностями за пределами любого фиксированного конвейера рендеринга. Мы объединяем предобученный двунаправленный видеобэкбон с покадровым перекрестным вниманием к тексту и обеспечиваем потоковую передачу в реальном времени с длинным горизонтом с помощью дистилляции Self-Forcing, инициализированной ОДУ, с развязанным по RoPE скользящим KV-кэшем. Мы превосходим базовый уровень Action-Index по переносу между сущностями (89% против 43%) и запросам вне словаря (90% против 0%), а наша двухшаговая студенческая модель поддерживает 19,7 кадров/с при разрешении 480p со стабильным FVD в течение двухчасовых прогонов. Мы также применяем ту же архитектуру и методику обучения к The King of Fighters, изменяя только слоты словаря действий для каждой сущности. Мы опубликовали предварительный поднабор набора данных Incantation по адресу https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes, содержащий вручную собранные клипы боев игрока с боссом из Elden Ring со структурированными метаданными, ориентированными на действия. Данные большего масштаба по Elden Ring и KOF будут опубликованы вместе с полным проектом.

English

Modern interactive video world models have achieved impressive visual fidelity, yet lack fine-grained multi-entity control and cross-entity, cross-world generalization. We trace this gap to the action interface: standard control protocols (e.g. animation IDs, device inputs, scene-level captions) bind action semantics to specific entities or engines at design time. We propose natural language as the interface to unlock expressiveness that no prior interface can achieve, and we present Incantation, the first interactive video world model with per-latent-frame (0.25 s) natural-language conditioning that supports simultaneous multi-entity control and concept-level cross-entity transfer beyond any fixed rendering pipeline. We pair a pretrained bidirectional video backbone with frame-local text cross-attention, and enable real-time long-horizon streaming through ODE-initialized Self-Forcing distillation with a RoPE-decoupled sliding KV-cache. We surpass the Action-Index baseline on cross-entity transfer (89% vs. 43%) and out-of-vocabulary prompts (90% vs. 0%), and our 2-step student sustains 19.7 FPS at 480p with stable FVD over 2-hour rollouts. We further apply the same architecture and training recipe to The King of Fighters, changing only the per-entity action vocabulary slots. We have released a preview subset of the Incantation dataset at https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes, containing manually collected Elden Ring player-boss combat clips with structured action-oriented metadata. Larger-scale Elden Ring and KOF data will be released with the full project.