ChatPaper.aiChatPaper

라이브 아바타: 무한 길이 실시간 오디오 기반 아바타 생성 스트리밍

Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length

December 4, 2025
저자: Yubo Huang, Hailong Guo, Fangtai Wu, Shifeng Zhang, Shijie Huang, Qijun Gan, Lin Liu, Sirui Zhao, Enhong Chen, Jiaming Liu, Steven Hoi
cs.AI

초록

기존 확산 기반 비디오 생성 방법은 순차적 계산과 장기간 불일치에 근본적으로 제약을 받아, 실시간 스트리밍 오디오 기반 아바타 합성의 실질적인 적용이 제한되어 왔습니다. 본 논문은 140억 개의 매개변수를 가진 확산 모델을 사용하여 효율적이고 높은 충실도, 무한 길이의 아바타 생성을 가능하게 하는 알고리즘-시스템 공동 설계 프레임워크인 Live Avatar를 제안합니다. 우리의 접근 방식은 잡음 제거 단계를 여러 GPU에 걸쳐 파이프라인화하여 자기회귀적 병목 현상을 효과적으로 극복하고 안정적인 저지연 실시간 스트리밍을 보장하는 분산 추론 패러다임인 Timestep-forcing Pipeline Parallelism(TPP)을 도입합니다. 시간적 일관성을 더욱 향상시키고 신원 이탈 및 색상 아티팩트를 완화하기 위해, 캐시된 참조 이미지를 사용하여 외관을 동적으로 재보정함으로써 시퀀스 충실도를 유지하는 Rolling Sink Frame Mechanism(RSFM)을 제안합니다. 또한 대규모 모델의 시각적 품질 저하 없이 인과적이고 스트리밍 가능한 적응을 용이하게 하기 위해 Self-Forcing Distribution Matching Distillation을 활용합니다. Live Avatar는 최첨단 성능을 보여주며 5개의 H800 GPU에서 20 FPS의 종단간 생성을 달성하며, 우리가 아는 한 이 규모로 실용적이고 실시간, 고충실도 아바타 생성을 달성한 최초의 사례입니다. 우리의 연구는 산업용 장편 비디오 합성 애플리케이션에 고급 확산 모델을 배포하는 새로운 패러다임을 정립합니다.
English
Existing diffusion-based video generation methods are fundamentally constrained by sequential computation and long-horizon inconsistency, limiting their practical adoption in real-time, streaming audio-driven avatar synthesis. We present Live Avatar, an algorithm-system co-designed framework that enables efficient, high-fidelity, and infinite-length avatar generation using a 14-billion-parameter diffusion model. Our approach introduces Timestep-forcing Pipeline Parallelism (TPP), a distributed inference paradigm that pipelines denoising steps across multiple GPUs, effectively breaking the autoregressive bottleneck and ensuring stable, low-latency real-time streaming. To further enhance temporal consistency and mitigate identity drift and color artifacts, we propose the Rolling Sink Frame Mechanism (RSFM), which maintains sequence fidelity by dynamically recalibrating appearance using a cached reference image. Additionally, we leverage Self-Forcing Distribution Matching Distillation to facilitate causal, streamable adaptation of large-scale models without sacrificing visual quality. Live Avatar demonstrates state-of-the-art performance, reaching 20 FPS end-to-end generation on 5 H800 GPUs, and, to the best of our knowledge, is the first to achieve practical, real-time, high-fidelity avatar generation at this scale. Our work establishes a new paradigm for deploying advanced diffusion models in industrial long-form video synthesis applications.
PDF1113December 6, 2025