Управление узлами: Обучение авторегрессионных моделей диффузии видео для интерактивной портретной анимации в реальном времени с бесконечной длительностью
Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation
December 25, 2025
Авторы: Steven Xiao, Xindi Zhang, Dechao Meng, Qi Wang, Peng Zhang, Bang Zhang
cs.AI
Аннотация
Реализация портретной анимации в реальном времени крайне важна для интерактивных приложений, таких как виртуальные ассистенты и живые аватары, и требует высокой визуальной достоверности, временной согласованности, сверхнизкой задержки и отзывчивого управления на основе динамических входных данных, таких как эталонные изображения и управляющие сигналы. Хотя диффузионные модели обеспечивают высокое качество, их некаузальная природа препятствует использованию в потоковом режиме. Каузальные авторегрессионные методы генерации видео позволяют эффективно генерировать кадры последовательно, но страдают от накопления ошибок, разрывов движения на границах сегментов и ухудшения долгосрочной согласованности. В данной работе мы представляем новую потоковую архитектуру под названием Knot Forcing для портретной анимации в реальном времени, которая решает эти проблемы за счет трех ключевых решений: (1) стратегия генерации сегментами с глобальным сохранением идентичности через кэшированные KV-состояния эталонного изображения и локальным временным моделированием с использованием механизма внимания со скользящим окном; (2) временной узел, который перекрывает соседние сегменты и передает пространственно-временные сигналы через кондиционирование "изображение-видео" для сглаживания переходов движения между сегментами; и (3) механизм "опережающего бега", который динамически обновляет временную координату эталонного кадра в процессе вывода, удерживая его семантический контекст впереди текущего генерируемого кадра для поддержания долгосрочной согласованности. Knot Forcing обеспечивает высококачественную, временно согласованную и интерактивную портретную анимацию на бесконечных последовательностях, достигая производительности в реальном времени с высокой визуальной стабильностью на потребительских графических процессорах.
English
Real-time portrait animation is essential for interactive applications such as virtual assistants and live avatars, requiring high visual fidelity, temporal coherence, ultra-low latency, and responsive control from dynamic inputs like reference images and driving signals. While diffusion-based models achieve strong quality, their non-causal nature hinders streaming deployment. Causal autoregressive video generation approaches enable efficient frame-by-frame generation but suffer from error accumulation, motion discontinuities at chunk boundaries, and degraded long-term consistency. In this work, we present a novel streaming framework named Knot Forcing for real-time portrait animation that addresses these challenges through three key designs: (1) a chunk-wise generation strategy with global identity preservation via cached KV states of the reference image and local temporal modeling using sliding window attention; (2) a temporal knot module that overlaps adjacent chunks and propagates spatio-temporal cues via image-to-video conditioning to smooth inter-chunk motion transitions; and (3) A "running ahead" mechanism that dynamically updates the reference frame's temporal coordinate during inference, keeping its semantic context ahead of the current rollout frame to support long-term coherence. Knot Forcing enables high-fidelity, temporally consistent, and interactive portrait animation over infinite sequences, achieving real-time performance with strong visual stability on consumer-grade GPUs.