PersonaLive! ライブストリーミングのための表現力豊かなポートレート画像アニメーション
PersonaLive! Expressive Portrait Image Animation for Live Streaming
December 12, 2025
著者: Zhiyuan Li, Chi-Man Pun, Chen Fang, Jue Wang, Xiaodong Cun
cs.AI
要旨
現在の拡散モデルベースの肖像画アニメーション手法は、視覚的品質と表情のリアリズム向上に主眼が置かれている一方で、生成遅延やリアルタイム性能が軽視されており、ライブ配信シナリオにおける応用範囲を制限している。本研究ではPersonaLiveを提案する。これは、マルチステージ訓練レシピを用いたストリーミングリアルタイム肖像画アニメーションのための新しい拡散モデルベースのフレームワークである。具体的には、まず暗黙的面部表現と3D暗黙キーポイントからなるハイブリッド暗黙信号を採用し、表現力豊かな画像レベルのモーション制御を実現する。次に、より少ないステップ数の外観蒸留戦略を提案し、ノイズ除去プロセスにおける外観の冗長性を排除することで、推論効率を大幅に向上させる。最後に、スライディング訓練戦略と履歴キーフレーム機構を備えた自己回帰的マイクロチャンク・ストリーミング生成パラダイムを導入し、低遅延かつ安定した長期ビデオ生成を可能にする。大規模な実験により、PersonaLiveが従来の拡散モデルベースの肖像画アニメーション手法と比較して最大7~22倍の高速化を達成し、最先端の性能を発揮することを実証した。
English
Current diffusion-based portrait animation models predominantly focus on enhancing visual quality and expression realism, while overlooking generation latency and real-time performance, which restricts their application range in the live streaming scenario. We propose PersonaLive, a novel diffusion-based framework towards streaming real-time portrait animation with multi-stage training recipes. Specifically, we first adopt hybrid implicit signals, namely implicit facial representations and 3D implicit keypoints, to achieve expressive image-level motion control. Then, a fewer-step appearance distillation strategy is proposed to eliminate appearance redundancy in the denoising process, greatly improving inference efficiency. Finally, we introduce an autoregressive micro-chunk streaming generation paradigm equipped with a sliding training strategy and a historical keyframe mechanism to enable low-latency and stable long-term video generation. Extensive experiments demonstrate that PersonaLive achieves state-of-the-art performance with up to 7-22x speedup over prior diffusion-based portrait animation models.