Incantation : le langage naturel comme interface d'action pour les modèles de mondes vidéo multi-entités

Résumé

Les modèles de monde vidéo interactifs modernes ont atteint une fidélité visuelle impressionnante, mais manquent d'un contrôle multi-entités fin et d'une généralisation inter-entités et inter-mondes. Nous attribuons cette lacune à l'interface d'action : les protocoles de contrôle standards (par exemple, les identifiants d'animation, les entrées de périphériques, les légendes au niveau de la scène) lient la sémantique des actions à des entités ou moteurs spécifiques lors de la conception. Nous proposons le langage naturel comme interface pour débloquer une expressivité qu'aucune interface antérieure ne peut atteindre, et nous présentons Incantation, le premier modèle de monde vidéo interactif avec un conditionnement en langage naturel par trame latente (0,25 s) prenant en charge le contrôle multi-entités simultané et le transfert inter-entités au niveau conceptuel au-delà de tout pipeline de rendu fixe. Nous associons un squelette vidéo bidirectionnel pré-entraîné à une attention croisée texte locale par trame, et permettons un streaming en temps réel à long horizon grâce à une distillation Self-Forcing initialisée par ODE avec un cache KV coulissant à découplage RoPE. Nous surpassons la ligne de base Action-Index sur le transfert inter-entités (89 % contre 43 %) et les invites hors vocabulaire (90 % contre 0 %), et notre étudiant en 2 étapes maintient 19,7 FPS en 480p avec un FVD stable sur des rouleaux de 2 heures. Nous appliquons également la même architecture et la même recette d'entraînement à The King of Fighters, en modifiant uniquement les emplacements de vocabulaire d'action par entité. Nous avons publié un sous-ensemble d'aperçu du jeu de données Incantation à l'adresse https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes, contenant des clips de combat joueur-boss d'Elden Ring collectés manuellement avec des métadonnées structurées orientées actions. Des données à plus grande échelle d'Elden Ring et de KOF seront publiées avec le projet complet.

English

Modern interactive video world models have achieved impressive visual fidelity, yet lack fine-grained multi-entity control and cross-entity, cross-world generalization. We trace this gap to the action interface: standard control protocols (e.g. animation IDs, device inputs, scene-level captions) bind action semantics to specific entities or engines at design time. We propose natural language as the interface to unlock expressiveness that no prior interface can achieve, and we present Incantation, the first interactive video world model with per-latent-frame (0.25 s) natural-language conditioning that supports simultaneous multi-entity control and concept-level cross-entity transfer beyond any fixed rendering pipeline. We pair a pretrained bidirectional video backbone with frame-local text cross-attention, and enable real-time long-horizon streaming through ODE-initialized Self-Forcing distillation with a RoPE-decoupled sliding KV-cache. We surpass the Action-Index baseline on cross-entity transfer (89% vs. 43%) and out-of-vocabulary prompts (90% vs. 0%), and our 2-step student sustains 19.7 FPS at 480p with stable FVD over 2-hour rollouts. We further apply the same architecture and training recipe to The King of Fighters, changing only the per-entity action vocabulary slots. We have released a preview subset of the Incantation dataset at https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes, containing manually collected Elden Ring player-boss combat clips with structured action-oriented metadata. Larger-scale Elden Ring and KOF data will be released with the full project.