ChatPaper.aiChatPaper

Forzado de Nudos: Domando Modelos de Difusión de Video Autoregresivos para Animación Retrato Interactiva Infinita en Tiempo Real

Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation

December 25, 2025
Autores: Steven Xiao, Xindi Zhang, Dechao Meng, Qi Wang, Peng Zhang, Bang Zhang
cs.AI

Resumen

La animación de retratos en tiempo real es esencial para aplicaciones interactivas como asistentes virtuales y avatares en vivo, requiriendo alta fidelidad visual, coherencia temporal, latencia ultrabaja y control responsivo a partir de entradas dinámicas como imágenes de referencia y señales de control. Si bien los modelos basados en difusión logran una calidad sólida, su naturaleza no causal dificulta su implementación en streaming. Los enfoques de generación de video autoregresivos causales permiten una generación eficiente fotograma a fotograma, pero sufren de acumulación de errores, discontinuidades de movimiento en los límites de los segmentos y degradación de la coherencia a largo plazo. En este trabajo, presentamos un novedoso framework de streaming denominado Knot Forcing para animación de retratos en tiempo real que aborda estos desafíos mediante tres diseños clave: (1) una estrategia de generación por segmentos con preservación global de la identidad mediante estados KV en caché de la imagen de referencia y modelado temporal local usando atención de ventana deslizante; (2) un módulo de nudo temporal que superpone segmentos adyacentes y propaga señales espacio-temporales mediante condicionamiento imagen-a-video para suavizar las transiciones de movimiento entre segmentos; y (3) un mecanismo de "avance dinámico" que actualiza dinámicamente la coordenada temporal del fotograma de referencia durante la inferencia, manteniendo su contexto semántico adelantado al fotograma actual de despliegue para apoyar la coherencia a largo plazo. Knot Forcing permite una animación de retratos de alta fidelidad, temporalmente coherente e interactiva sobre secuencias infinitas, logrando rendimiento en tiempo real con una sólida estabilidad visual en GPUs de grado consumidor.
English
Real-time portrait animation is essential for interactive applications such as virtual assistants and live avatars, requiring high visual fidelity, temporal coherence, ultra-low latency, and responsive control from dynamic inputs like reference images and driving signals. While diffusion-based models achieve strong quality, their non-causal nature hinders streaming deployment. Causal autoregressive video generation approaches enable efficient frame-by-frame generation but suffer from error accumulation, motion discontinuities at chunk boundaries, and degraded long-term consistency. In this work, we present a novel streaming framework named Knot Forcing for real-time portrait animation that addresses these challenges through three key designs: (1) a chunk-wise generation strategy with global identity preservation via cached KV states of the reference image and local temporal modeling using sliding window attention; (2) a temporal knot module that overlaps adjacent chunks and propagates spatio-temporal cues via image-to-video conditioning to smooth inter-chunk motion transitions; and (3) A "running ahead" mechanism that dynamically updates the reference frame's temporal coordinate during inference, keeping its semantic context ahead of the current rollout frame to support long-term coherence. Knot Forcing enables high-fidelity, temporally consistent, and interactive portrait animation over infinite sequences, achieving real-time performance with strong visual stability on consumer-grade GPUs.
PDF31December 31, 2025