ChatPaper.aiChatPaper

PersonaLive! Ausdrucksstarke Porträtbildanimation für Live-Streaming

PersonaLive! Expressive Portrait Image Animation for Live Streaming

December 12, 2025
papers.authors: Zhiyuan Li, Chi-Man Pun, Chen Fang, Jue Wang, Xiaodong Cun
cs.AI

papers.abstract

Aktuelle diffusionsbasierte Porträtanimationsmodelle konzentrieren sich hauptsächlich auf die Verbesserung der visuellen Qualität und des Ausdrucksrealismus, vernachlässigen dabei jedoch die Generierungslatenz und Echtzeitfähigkeit, was ihren Anwendungsbereich im Livestreaming-Szenario einschränkt. Wir stellen PersonaLive vor, ein neuartiges diffusionsbasiertes Framework für Echtzeit-Porträtanimation im Streaming mit mehrstufigen Trainingsrezepten. Konkret verwenden wir zunächst hybride implizite Signale – nämlich implizite Gesichtsrepräsentationen und 3D-implizite Keypoints – um eine ausdrucksstarke bildbasierte Bewegungssteuerung zu erreichen. Anschließend wird eine Fewer-Step-Appearance-Distillation-Strategie vorgeschlagen, um Redundanzen im Denoising-Prozess zu eliminieren und die Inferenzeffizienz erheblich zu steigern. Schließlich führen wir ein autoregressives Micro-Chunk-Streaming-Generierungsparadigma ein, das mit einer Sliding-Training-Strategie und einem historischen Keyframe-Mechanismus ausgestattet ist, um eine latenzarme und stabile Langzeitvideogenerierung zu ermöglichen. Umfangreiche Experimente belegen, dass PersonaLive state-of-the-art Leistung erzielt und dabei eine bis zu 7-22-fache Beschleunigung gegenüber bisherigen diffusionsbasierten Porträtanimationsmodellen erreicht.
English
Current diffusion-based portrait animation models predominantly focus on enhancing visual quality and expression realism, while overlooking generation latency and real-time performance, which restricts their application range in the live streaming scenario. We propose PersonaLive, a novel diffusion-based framework towards streaming real-time portrait animation with multi-stage training recipes. Specifically, we first adopt hybrid implicit signals, namely implicit facial representations and 3D implicit keypoints, to achieve expressive image-level motion control. Then, a fewer-step appearance distillation strategy is proposed to eliminate appearance redundancy in the denoising process, greatly improving inference efficiency. Finally, we introduce an autoregressive micro-chunk streaming generation paradigm equipped with a sliding training strategy and a historical keyframe mechanism to enable low-latency and stable long-term video generation. Extensive experiments demonstrate that PersonaLive achieves state-of-the-art performance with up to 7-22x speedup over prior diffusion-based portrait animation models.
PDF252December 17, 2025