Knoopforcering: Het Temmen van Autoregressieve Videodiffusiemodellen voor Real-time Oneindige Interactieve Portretanimatie
Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation
December 25, 2025
Auteurs: Steven Xiao, Xindi Zhang, Dechao Meng, Qi Wang, Peng Zhang, Bang Zhang
cs.AI
Samenvatting
Real-time portretanimatie is essentieel voor interactieve toepassingen zoals virtuele assistenten en live avatars, en vereist hoge visuele kwaliteit, temporele coherentie, ultralage latentie en responsieve controle op basis van dynamische invoer zoals referentiebeelden en stuur-signalen. Hoewel op diffusie gebaseerde modellen sterke kwaliteit bereiken, belemmert hun niet-causale aard streaming-implementatie. Causale autoregressieve videogeneratiemethoden maken efficiënte frame-voor-frame-generatie mogelijk, maar lijden onder foutaccumulatie, beweging-sdiscontinuïteiten op chunkgrenzen en verminderde langetermijnconsistentie. In dit werk presenteren we een nieuw streaming-framework genaamd Knot Forcing voor real-time portretanimatie dat deze uitdagingen aanpakt via drie sleutelontwerpen: (1) een chunk-gewijze generatiestrategie met globaal identiteitsbehoud via gecachete KV-toestanden van het referentiebeeld en lokale temporele modellering met sliding window attention; (2) een temporele knoopmodule die aangrenzende chunks overlapt en spatio-temporele signalen doorgeeft via image-to-video-conditioning om bewegingsovergangen tussen chunks te verzachten; en (3) een "vooruitlopen"-mechanisme dat tijdens inferentie het temporele coördinaat van het referentieframe dynamisch bijwerkt, zodat de semantische context voorloopt op de huidige gegenereerde frame om langetermijncoherentie te ondersteunen. Knot Forcing maakt hoogwaardige, temporeel consistente en interactieve portretanimatie over oneindige sequenties mogelijk, met real-time prestaties en sterke visuele stabiliteit op consumenten-GPU's.
English
Real-time portrait animation is essential for interactive applications such as virtual assistants and live avatars, requiring high visual fidelity, temporal coherence, ultra-low latency, and responsive control from dynamic inputs like reference images and driving signals. While diffusion-based models achieve strong quality, their non-causal nature hinders streaming deployment. Causal autoregressive video generation approaches enable efficient frame-by-frame generation but suffer from error accumulation, motion discontinuities at chunk boundaries, and degraded long-term consistency. In this work, we present a novel streaming framework named Knot Forcing for real-time portrait animation that addresses these challenges through three key designs: (1) a chunk-wise generation strategy with global identity preservation via cached KV states of the reference image and local temporal modeling using sliding window attention; (2) a temporal knot module that overlaps adjacent chunks and propagates spatio-temporal cues via image-to-video conditioning to smooth inter-chunk motion transitions; and (3) A "running ahead" mechanism that dynamically updates the reference frame's temporal coordinate during inference, keeping its semantic context ahead of the current rollout frame to support long-term coherence. Knot Forcing enables high-fidelity, temporally consistent, and interactive portrait animation over infinite sequences, achieving real-time performance with strong visual stability on consumer-grade GPUs.