ノットフォーシング:自律回帰的ビデオ拡散モデルをリアルタイム無限インタラクティブ肖像アニメーションに適応させる手法
Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation
December 25, 2025
著者: Steven Xiao, Xindi Zhang, Dechao Meng, Qi Wang, Peng Zhang, Bang Zhang
cs.AI
要旨
リアルタイム肖像アニメーションは、仮想アシスタントやライブアバターなどのインタラクティブアプリケーションにおいて不可欠であり、高い視覚的忠実度、時間的一貫性、超低遅延、参照画像や駆動信号などの動的入力からの応答性のある制御が要求される。拡散モデルに基づく手法は高い品質を実現するが、非因果的な性質によりストリーミング環境での展開が妨げられている。因果的な自己回帰型ビデオ生成手法は効率的なフレーム単位の生成を可能にするが、誤差の蓄積、チャンク境界での動きの不連続、長期一貫性の劣化に悩まされている。本研究では、Knot Forcing と名付けた新しいストリーミングフレームワークを提案し、リアルタイム肖像アニメーションにおけるこれらの課題を以下の3つの主要な設計により解決する。(1) 参照画像のキャッシュされたKV状態によるグローバルな同一性保持と、スライディングウィンドウアテンションを用いた局所的時間モデリングを組み合わせたチャンク単位生成戦略。(2) 隣接チャンクをオーバーラップさせ、画像からビデオへの条件付けを介して時空間的な手がかりを伝播させることで、チャンク間の動き遷移を滑らかにする時間的結節モジュール。(3) 推論中に参照フレームの時間座標を動的に更新し、その意味的コンテキストを現在の生成フレームより先行させることで長期一貫性を支援する「先行実行」メカニズム。Knot Forcing は、無限のシーケンスにわたって高精細で時間的に一貫性があり、インタラクティブな肖像アニメーションを実現し、民生品GPU上で強力な視覚的安定性を保ちつつリアルタイム性能を達成する。
English
Real-time portrait animation is essential for interactive applications such as virtual assistants and live avatars, requiring high visual fidelity, temporal coherence, ultra-low latency, and responsive control from dynamic inputs like reference images and driving signals. While diffusion-based models achieve strong quality, their non-causal nature hinders streaming deployment. Causal autoregressive video generation approaches enable efficient frame-by-frame generation but suffer from error accumulation, motion discontinuities at chunk boundaries, and degraded long-term consistency. In this work, we present a novel streaming framework named Knot Forcing for real-time portrait animation that addresses these challenges through three key designs: (1) a chunk-wise generation strategy with global identity preservation via cached KV states of the reference image and local temporal modeling using sliding window attention; (2) a temporal knot module that overlaps adjacent chunks and propagates spatio-temporal cues via image-to-video conditioning to smooth inter-chunk motion transitions; and (3) A "running ahead" mechanism that dynamically updates the reference frame's temporal coordinate during inference, keeping its semantic context ahead of the current rollout frame to support long-term coherence. Knot Forcing enables high-fidelity, temporally consistent, and interactive portrait animation over infinite sequences, achieving real-time performance with strong visual stability on consumer-grade GPUs.