FlashPortrait: 적응형 잠재 예측으로 6배 빠른 무한 인물 애니메이션
FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction
December 18, 2025
저자: Shuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Kai Qiu, Chong Luo, Zuxuan Wu
cs.AI
초록
현재 장면 애니메이션을 위한 확산 기반 가속 방법은 신원(ID) 일관성을 보장하는 데 어려움을 겪고 있습니다. 본 논문에서는 신원 정보를 보존한 무한 길이 동영상을 합성하면서 최대 6배의 추론 속도 가속을 달성하는 end-to-end 비디오 확산 트랜스포머인 FlashPortrait을 제안합니다. 특히 FlashPortrait은 먼저 기성 추출기를 사용하여 신원 정보와 무관한 얼굴 표정 특징을 계산합니다. 그런 다음 정규화 얼굴 표현 블록을 도입하여 각각의 평균과 분산으로 특징을 정규화함으로써 얼굴 특징을 확산 잠재 변수와 정렬하여 얼굴 모델링에서 신원 안정성을 향상시킵니다. 추론 과정에서는 중첩 영역에 가중치 블렌딩을 적용한 동적 슬라이딩 윈도우 방식을 채택하여 장면 애니메이션에서 부드러운 전환과 신원 일관성을 보장합니다. 각 컨텍스트 윈도우 내에서 특정 시간 단계의 잠재 변동률과 확산 계층 간의 미분 크기 비율을 기반으로, FlashPortrait은 현재 시간 단계의 고차 잠재 미분값을 활용하여 미래 시간 단계의 잠재 변수를 직접 예측함으로써 여러 노이즈 제거 단계를 건너뛰고 6배의 속도 가속을 달성합니다. 벤치마크 실험을 통해 FlashPortrait의 정성적 및 정량적 효과성을 입증하였습니다.
English
Current diffusion-based acceleration methods for long-portrait animation struggle to ensure identity (ID) consistency. This paper presents FlashPortrait, an end-to-end video diffusion transformer capable of synthesizing ID-preserving, infinite-length videos while achieving up to 6x acceleration in inference speed. In particular, FlashPortrait begins by computing the identity-agnostic facial expression features with an off-the-shelf extractor. It then introduces a Normalized Facial Expression Block to align facial features with diffusion latents by normalizing them with their respective means and variances, thereby improving identity stability in facial modeling. During inference, FlashPortrait adopts a dynamic sliding-window scheme with weighted blending in overlapping areas, ensuring smooth transitions and ID consistency in long animations. In each context window, based on the latent variation rate at particular timesteps and the derivative magnitude ratio among diffusion layers, FlashPortrait utilizes higher-order latent derivatives at the current timestep to directly predict latents at future timesteps, thereby skipping several denoising steps and achieving 6x speed acceleration. Experiments on benchmarks show the effectiveness of FlashPortrait both qualitatively and quantitatively.