Encantamento: Linguagem Natural como a Interface de Ação para Modelos de Mundo de Vídeo Multi-Entidade

Resumo

Modelos modernos de mundo de vídeo interativo alcançaram fidelidade visual impressionante, mas carecem de controle multientidade refinado e generalização entre entidades e entre mundos. Atribuímos essa lacuna à interface de ação: protocolos de controle padrão (por exemplo, IDs de animação, entradas de dispositivo, legendas de nível de cena) vinculam a semântica da ação a entidades ou mecanismos específicos no momento do design. Propomos a linguagem natural como interface para desbloquear uma expressividade que nenhuma interface anterior conseguiu alcançar, e apresentamos o Incantation, o primeiro modelo de mundo de vídeo interativo com condicionamento por linguagem natural por quadro latente (0,25 s), que suporta controle simultâneo de múltiplas entidades e transferência entre entidades em nível de conceito, além de qualquer pipeline de renderização fixa. Combinamos uma backbone de vídeo bidirecional pré-treinada com atenção cruzada de texto local por quadro, e viabilizamos streaming em tempo real de longo horizonte por meio da destilação Self-Forcing inicializada por ODE com um cache KV deslizante com RoPE desacoplado. Superamos a linha de base Action-Index na transferência entre entidades (89% vs. 43%) e em prompts fora do vocabulário (90% vs. 0%), e nosso estudante de 2 etapas mantém 19,7 FPS a 480p com FVD estável ao longo de execuções de 2 horas. Além disso, aplicamos a mesma arquitetura e receita de treinamento a The King of Fighters, alterando apenas os slots de vocabulário de ação por entidade. Lançamos um subconjunto de pré-visualização do conjunto de dados Incantation em https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes, contendo clipes de combate jogador-chefe de Elden Ring coletados manualmente com metadados estruturados orientados a ação. Dados em maior escala de Elden Ring e KOF serão lançados com o projeto completo.

English

Modern interactive video world models have achieved impressive visual fidelity, yet lack fine-grained multi-entity control and cross-entity, cross-world generalization. We trace this gap to the action interface: standard control protocols (e.g. animation IDs, device inputs, scene-level captions) bind action semantics to specific entities or engines at design time. We propose natural language as the interface to unlock expressiveness that no prior interface can achieve, and we present Incantation, the first interactive video world model with per-latent-frame (0.25 s) natural-language conditioning that supports simultaneous multi-entity control and concept-level cross-entity transfer beyond any fixed rendering pipeline. We pair a pretrained bidirectional video backbone with frame-local text cross-attention, and enable real-time long-horizon streaming through ODE-initialized Self-Forcing distillation with a RoPE-decoupled sliding KV-cache. We surpass the Action-Index baseline on cross-entity transfer (89% vs. 43%) and out-of-vocabulary prompts (90% vs. 0%), and our 2-step student sustains 19.7 FPS at 480p with stable FVD over 2-hour rollouts. We further apply the same architecture and training recipe to The King of Fighters, changing only the per-entity action vocabulary slots. We have released a preview subset of the Incantation dataset at https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes, containing manually collected Elden Ring player-boss combat clips with structured action-oriented metadata. Larger-scale Elden Ring and KOF data will be released with the full project.