ChatPaper.aiChatPaper

**Forçage de Nœuds : Domestiquer les Modèles de Diffusion Vidéo Autoregressifs pour une Animation Interactive et Infinie de Portraits en Temps Réel**

Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation

December 25, 2025
papers.authors: Steven Xiao, Xindi Zhang, Dechao Meng, Qi Wang, Peng Zhang, Bang Zhang
cs.AI

papers.abstract

L'animation de portraits en temps réel est essentielle pour les applications interactives telles que les assistants virtuels et les avatars en direct, nécessitant une haute fidélité visuelle, une cohérence temporelle, une latence ultra-faible et un contrôle réactif à partir d'entrées dynamiques comme les images de référence et les signaux pilotes. Si les modèles basés sur la diffusion atteignent une qualité élevée, leur nature non causale entrave leur déploiement en flux continu. Les approches causales de génération de vidéos autorégressives permettent une génération efficace image par image mais souffrent d'une accumulation d'erreurs, de discontinuités de mouvement aux limites des segments et d'une dégradation de la cohérence à long terme. Dans ce travail, nous présentons une nouvelle architecture de streaming nommée Knot Forcing pour l'animation de portraits en temps réel, qui relève ces défis grâce à trois conceptions clés : (1) une stratégie de génération par segments avec préservation globale de l'identité via la mise en cache des états KV de l'image de référence et une modélisation temporelle locale utilisant une attention par fenêtre glissante ; (2) un module de nœud temporel qui chevauche les segments adjacents et propage des indices spatio-temporels via un conditionnement image-à-vidéo pour lisser les transitions de mouvement entre les segments ; et (3) un mécanisme de « devancement » qui met à jour dynamiquement la coordonnée temporelle de l'image de référence pendant l'inférence, maintenant son contexte sémantique en avance sur l'image courante du déroulement pour assurer une cohérence à long terme. Knot Forcing permet une animation de portraits de haute fidélité, temporellement cohérente et interactive sur des séquences infinies, atteignant des performances en temps réel avec une grande stabilité visuelle sur des GPU grand public.
English
Real-time portrait animation is essential for interactive applications such as virtual assistants and live avatars, requiring high visual fidelity, temporal coherence, ultra-low latency, and responsive control from dynamic inputs like reference images and driving signals. While diffusion-based models achieve strong quality, their non-causal nature hinders streaming deployment. Causal autoregressive video generation approaches enable efficient frame-by-frame generation but suffer from error accumulation, motion discontinuities at chunk boundaries, and degraded long-term consistency. In this work, we present a novel streaming framework named Knot Forcing for real-time portrait animation that addresses these challenges through three key designs: (1) a chunk-wise generation strategy with global identity preservation via cached KV states of the reference image and local temporal modeling using sliding window attention; (2) a temporal knot module that overlaps adjacent chunks and propagates spatio-temporal cues via image-to-video conditioning to smooth inter-chunk motion transitions; and (3) A "running ahead" mechanism that dynamically updates the reference frame's temporal coordinate during inference, keeping its semantic context ahead of the current rollout frame to support long-term coherence. Knot Forcing enables high-fidelity, temporally consistent, and interactive portrait animation over infinite sequences, achieving real-time performance with strong visual stability on consumer-grade GPUs.
PDF31December 31, 2025