ChatPaper.aiChatPaper

Knot Forcing: Zähmung autoregressiver Videodiffusionsmodelle für Echtzeit-Interaktionsporträt-Animation mit unendlicher Länge

Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation

December 25, 2025
papers.authors: Steven Xiao, Xindi Zhang, Dechao Meng, Qi Wang, Peng Zhang, Bang Zhang
cs.AI

papers.abstract

Echtzeit-Porträtanimation ist entscheidend für interaktive Anwendungen wie virtuelle Assistenten und Live-Avatare, da sie hohe visuelle Qualität, zeitliche Kohärenz, ultrageringe Latenz und reaktionsschnelle Steuerung durch dynamische Eingaben wie Referenzbilder und Treibersignale erfordert. Während diffusionsbasierte Modelle hohe Qualität erreichen, verhindert ihre nicht-kausale Natur den Einsatz im Streaming-Betrieb. Kausale autoregressive Videoerzeugungsansätze ermöglichen eine effiziente Einzelbildgenerierung, leiden jedoch unter Fehlerakkumulation, Bewegungsdiskontinuitäten an Chunk-Grenzen und verminderter Langzeitkonsistenz. In dieser Arbeit stellen wir ein neuartiges Streaming-Framework namens Knot Forcing für Echtzeit-Porträtanimation vor, das diese Herausforderungen durch drei Schlüsseldesigns adressiert: (1) eine chunk-basierte Generierungsstrategie mit globaler Identitätserhaltung durch zwischengespeicherte KV-Zustände des Referenzbildes und lokaler Zeitmodellierung mittels Sliding-Window-Attention; (2) ein temporales Knotenmodul, das benachbarte Chunks überlappt und räumlich-zeitliche Hinweise über Image-to-Video-Conditioning weiterleitet, um Bewegungsübergänge zwischen Chunks zu glätten; und (3) ein "Vorauslaufen"-Mechanismus, der die temporale Koordinate des Referenzrahmens während der Inferenz dynamisch aktualisiert, um seinen semantischen Kontext vor dem aktuell generierten Frame zu halten und so Langzeitkohärenz zu unterstützen. Knot Forcing ermöglicht hochwertige, zeitlich konsistente und interaktive Porträtanimation über unendliche Sequenzen hinweg und erreicht Echtzeitleistung mit hoher visueller Stabilität auf consumer-grade GPUs.
English
Real-time portrait animation is essential for interactive applications such as virtual assistants and live avatars, requiring high visual fidelity, temporal coherence, ultra-low latency, and responsive control from dynamic inputs like reference images and driving signals. While diffusion-based models achieve strong quality, their non-causal nature hinders streaming deployment. Causal autoregressive video generation approaches enable efficient frame-by-frame generation but suffer from error accumulation, motion discontinuities at chunk boundaries, and degraded long-term consistency. In this work, we present a novel streaming framework named Knot Forcing for real-time portrait animation that addresses these challenges through three key designs: (1) a chunk-wise generation strategy with global identity preservation via cached KV states of the reference image and local temporal modeling using sliding window attention; (2) a temporal knot module that overlaps adjacent chunks and propagates spatio-temporal cues via image-to-video conditioning to smooth inter-chunk motion transitions; and (3) A "running ahead" mechanism that dynamically updates the reference frame's temporal coordinate during inference, keeping its semantic context ahead of the current rollout frame to support long-term coherence. Knot Forcing enables high-fidelity, temporally consistent, and interactive portrait animation over infinite sequences, achieving real-time performance with strong visual stability on consumer-grade GPUs.
PDF31December 31, 2025