**Forçamento de Nós: Domando Modelos Autoregressivos de Difusão de Vídeo para Animação Interativa e Infinita de Retratos em Tempo Real**

Resumo

A animação de retratos em tempo real é essencial para aplicações interativas como assistentes virtuais e avatares ao vivo, exigindo alta fidelidade visual, coerência temporal, latência ultrabaixa e controle responsivo a partir de entradas dinâmicas como imagens de referência e sinais de condução. Embora os modelos baseados em difusão atinjam alta qualidade, sua natureza não causal dificulta a implantação em streaming. Abordagens de geração de vídeo autoregressivas causais permitem geração eficiente quadro a quadro, mas sofrem com acúmulo de erros, descontinuidades de movimento nas fronteiras dos segmentos e degradação da consistência de longo prazo. Neste trabalho, apresentamos uma nova estrutura de streaming denominada Knot Forcing para animação de retratos em tempo real que aborda esses desafios através de três projetos-chave: (1) uma estratégia de geração por segmentos com preservação global de identidade via estados KV em cache da imagem de referência e modelagem temporal local usando atenção de janela deslizante; (2) um módulo de nó temporal que sobrepõe segmentos adjacentes e propaga pistas espaço-temporais via condicionamento imagem-para-vídeo para suavizar transições de movimento entre segmentos; e (3) um mecanismo de "avanço dinâmico" que atualiza dinamicamente a coordenada temporal do quadro de referência durante a inferência, mantendo seu contexto semântico à frente do quadro atual de execução para sustentar coerência de longo prazo. O Knot Forcing permite animação de retratos de alta fidelidade, temporalmente consistente e interativa sobre sequências infinitas, alcançando desempenho em tempo real com forte estabilidade visual em GPUs de nível consumidor.

English

Real-time portrait animation is essential for interactive applications such as virtual assistants and live avatars, requiring high visual fidelity, temporal coherence, ultra-low latency, and responsive control from dynamic inputs like reference images and driving signals. While diffusion-based models achieve strong quality, their non-causal nature hinders streaming deployment. Causal autoregressive video generation approaches enable efficient frame-by-frame generation but suffer from error accumulation, motion discontinuities at chunk boundaries, and degraded long-term consistency. In this work, we present a novel streaming framework named Knot Forcing for real-time portrait animation that addresses these challenges through three key designs: (1) a chunk-wise generation strategy with global identity preservation via cached KV states of the reference image and local temporal modeling using sliding window attention; (2) a temporal knot module that overlaps adjacent chunks and propagates spatio-temporal cues via image-to-video conditioning to smooth inter-chunk motion transitions; and (3) A "running ahead" mechanism that dynamically updates the reference frame's temporal coordinate during inference, keeping its semantic context ahead of the current rollout frame to support long-term coherence. Knot Forcing enables high-fidelity, temporally consistent, and interactive portrait animation over infinite sequences, achieving real-time performance with strong visual stability on consumer-grade GPUs.

Forçamento de Nós: Domando Modelos Autoregressivos de Difusão de Vídeo para Animação Interativa e Infinita de Retratos em Tempo Real

Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation

Resumo

Support