PersonaLive! Анимирование выразительных портретных изображений для прямых трансляций
PersonaLive! Expressive Portrait Image Animation for Live Streaming
December 12, 2025
Авторы: Zhiyuan Li, Chi-Man Pun, Chen Fang, Jue Wang, Xiaodong Cun
cs.AI
Аннотация
Современные диффузионные модели анимации портретов в основном сосредоточены на повышении визуального качества и реалистичности выражений, игнорируя при этом задержку генерации и производительность в реальном времени, что ограничивает область их применения в сценариях прямых трансляций. Мы предлагаем PersonaLive — новую диффузионную архитектуру для потоковой анимации портретов в реальном времени с многоэтапной стратегией обучения. В частности, мы сначала используем гибридные неявные сигналы, а именно неявные лицевые репрезентации и 3D неявные ключевые точки, для достижения выразительного управления движением на уровне изображения. Затем предлагается стратегия дистилляции внешнего вида с уменьшенным количеством шагов для устранения избыточности внешнего вида в процессе шумоподавления, что значительно повышает эффективность вывода. Наконец, мы вводим парадигму потоковой генерации с авторегрессионными микро-сегментами, оснащенную стратегией скользящего обучения и механизмом исторических ключевых кадров, для обеспечения генерации видео с низкой задержкой и стабильностью в долгосрочной перспективе. Многочисленные эксперименты демонстрируют, что PersonaLive достигает наилучших результатов с ускорением до 7–22 раз по сравнению с предыдущими диффузионными моделями анимации портретов.
English
Current diffusion-based portrait animation models predominantly focus on enhancing visual quality and expression realism, while overlooking generation latency and real-time performance, which restricts their application range in the live streaming scenario. We propose PersonaLive, a novel diffusion-based framework towards streaming real-time portrait animation with multi-stage training recipes. Specifically, we first adopt hybrid implicit signals, namely implicit facial representations and 3D implicit keypoints, to achieve expressive image-level motion control. Then, a fewer-step appearance distillation strategy is proposed to eliminate appearance redundancy in the denoising process, greatly improving inference efficiency. Finally, we introduce an autoregressive micro-chunk streaming generation paradigm equipped with a sliding training strategy and a historical keyframe mechanism to enable low-latency and stable long-term video generation. Extensive experiments demonstrate that PersonaLive achieves state-of-the-art performance with up to 7-22x speedup over prior diffusion-based portrait animation models.