Knot Forcing: Domare i Modelli di Diffusione Video Autoregressivi per un'Animazione Ritrattistica Interattiva Infinita in Tempo Reale

Abstract

L'animazione ritrattistica in tempo reale è fondamentale per applicazioni interattive come assistenti virtuali e avatar live, richiedendo alta fedeltà visiva, coerenza temporale, latenza ultra-bassa e controllo reattivo da input dinamici come immagini di riferimento e segnali di guida. Sebbene i modelli basati su diffusione raggiungano un'elevata qualità, la loro natura non causale ostacola il deployment in streaming. Gli approcci di generazione video autoregressivi causali consentono una generazione efficiente frame-by-frame ma soffrono di accumulo di errori, discontinuità del movimento ai confini dei chunk e degrado della coerenza a lungo termine. In questo lavoro, presentiamo un framework di streaming innovativo denominato Knot Forcing per l'animazione ritrattistica in tempo reale che affronta queste sfide attraverso tre progetti chiave: (1) una strategia di generazione chunk-wise con preservazione dell'identità globale tramite stati KV memorizzati dell'immagine di riferimento e modellazione temporale locale mediante sliding window attention; (2) un modulo temporale knot che sovrappone chunk adiacenti e propaga indizi spazio-temporali tramite condizionamento image-to-video per fluidificare le transizioni di movimento inter-chunk; e (3) un meccanismo di "running ahead" che aggiorna dinamicamente la coordinata temporale del frame di riferimento durante l'inferenza, mantenendo il suo contesto semantico anticipato rispetto al frame corrente di rollout per supportare la coerenza a lungo termine. Knot Forcing abilita un'animazione ritrattistica di alta fedeltà, temporalmente coerente e interattiva su sequenze infinite, raggiungendo prestazioni in tempo reale con forte stabilità visiva su GPU di livello consumer.

English

Real-time portrait animation is essential for interactive applications such as virtual assistants and live avatars, requiring high visual fidelity, temporal coherence, ultra-low latency, and responsive control from dynamic inputs like reference images and driving signals. While diffusion-based models achieve strong quality, their non-causal nature hinders streaming deployment. Causal autoregressive video generation approaches enable efficient frame-by-frame generation but suffer from error accumulation, motion discontinuities at chunk boundaries, and degraded long-term consistency. In this work, we present a novel streaming framework named Knot Forcing for real-time portrait animation that addresses these challenges through three key designs: (1) a chunk-wise generation strategy with global identity preservation via cached KV states of the reference image and local temporal modeling using sliding window attention; (2) a temporal knot module that overlaps adjacent chunks and propagates spatio-temporal cues via image-to-video conditioning to smooth inter-chunk motion transitions; and (3) A "running ahead" mechanism that dynamically updates the reference frame's temporal coordinate during inference, keeping its semantic context ahead of the current rollout frame to support long-term coherence. Knot Forcing enables high-fidelity, temporally consistent, and interactive portrait animation over infinite sequences, achieving real-time performance with strong visual stability on consumer-grade GPUs.

Knot Forcing: Domare i Modelli di Diffusione Video Autoregressivi per un'Animazione Ritrattistica Interattiva Infinita in Tempo Reale

Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation

Abstract

Support