Incantation: El Lenguaje Natural como Interfaz de Acción para Modelos de Mundo de Video Multi-Entidad

Resumen

Los modelos de mundo de video interactivos modernos han logrado una fidelidad visual impresionante, pero carecen de control multientidad de grano fino y de generalización entre entidades y entre mundos. Atribuimos esta limitación a la interfaz de acción: los protocolos de control estándar (por ejemplo, identificadores de animación, entradas de dispositivo, descripciones a nivel de escena) vinculan la semántica de las acciones a entidades o motores específicos en el momento del diseño. Proponemos el lenguaje natural como interfaz para desbloquear una expresividad que ninguna interfaz previa puede alcanzar, y presentamos Incantation, el primer modelo de mundo de video interactivo con condicionamiento por lenguaje natural por fotograma latente (0,25 s) que admite control simultáneo de múltiples entidades y transferencia conceptual entre entidades más allá de cualquier pipeline de renderizado fijo. Combinamos un backbone de video bidireccional preentrenado con atención cruzada de texto local por fotograma, y habilitamos la transmisión en tiempo real de horizonte largo mediante destilación de Self-Forcing inicializada con EDO junto con un caché KV deslizante desacoplado de RoPE. Superamos la línea base Action-Index en transferencia entre entidades (89% frente a 43%) y en prompts fuera de vocabulario (90% frente a 0%), y nuestro estudiante de 2 pasos mantiene 19,7 FPS a 480p con FVD estable durante despliegues de 2 horas. Además, aplicamos la misma arquitectura y receta de entrenamiento a The King of Fighters, cambiando únicamente las ranuras de vocabulario de acciones por entidad. Hemos publicado un subconjunto de vista previa del conjunto de datos Incantation en https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes, que contiene clips de combate jugador-jefe de Elden Ring recopilados manualmente con metadatos estructurados orientados a la acción. Los datos a mayor escala de Elden Ring y KOF se publicarán con el proyecto completo.

English

Modern interactive video world models have achieved impressive visual fidelity, yet lack fine-grained multi-entity control and cross-entity, cross-world generalization. We trace this gap to the action interface: standard control protocols (e.g. animation IDs, device inputs, scene-level captions) bind action semantics to specific entities or engines at design time. We propose natural language as the interface to unlock expressiveness that no prior interface can achieve, and we present Incantation, the first interactive video world model with per-latent-frame (0.25 s) natural-language conditioning that supports simultaneous multi-entity control and concept-level cross-entity transfer beyond any fixed rendering pipeline. We pair a pretrained bidirectional video backbone with frame-local text cross-attention, and enable real-time long-horizon streaming through ODE-initialized Self-Forcing distillation with a RoPE-decoupled sliding KV-cache. We surpass the Action-Index baseline on cross-entity transfer (89% vs. 43%) and out-of-vocabulary prompts (90% vs. 0%), and our 2-step student sustains 19.7 FPS at 480p with stable FVD over 2-hour rollouts. We further apply the same architecture and training recipe to The King of Fighters, changing only the per-entity action vocabulary slots. We have released a preview subset of the Incantation dataset at https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes, containing manually collected Elden Ring player-boss combat clips with structured action-oriented metadata. Larger-scale Elden Ring and KOF data will be released with the full project.