ChatPaper.aiChatPaper

Живой аватар: потоковая генерация аватаров с бесконечной длительностью на основе аудио в реальном времени

Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length

December 4, 2025
Авторы: Yubo Huang, Hailong Guo, Fangtai Wu, Shifeng Zhang, Shijie Huang, Qijun Gan, Lin Liu, Sirui Zhao, Enhong Chen, Jiaming Liu, Steven Hoi
cs.AI

Аннотация

Существующие методы генерации видео на основе диффузионных моделей фундаментально ограничены последовательными вычислениями и несогласованностью на длинных промежутках времени, что препятствует их практическому применению в задачах синтеза аватаров в реальном времени с потоковым аудиовходом. Мы представляем Live Avatar — совместно спроектированный алгоритмико-системный фреймворк, который обеспечивает эффективную, высокодетализированную и бесконечно долгую генерацию аватаров с использованием 14-миллиардной диффузионной модели. Наш подход включает Timestep-forcing Pipeline Parallelism (TPP) — парадигму распределенного вывода, которая организует конвейерную обработку шагов шумоподавления на нескольких GPU, эффективно преодолевая авторегрессионное узкое место и гарантируя стабильную потоковую передачу с малой задержкой. Для повышения временной согласованности, снижения дрейфа идентичности и цветовых артефактов мы предлагаем Rolling Sink Frame Mechanism (RSFM), который поддерживает точность последовательности за счет динамической перекалибровки внешнего вида с использованием кэшированного референсного изображения. Кроме того, мы применяем Self-Forcing Distribution Matching Distillation для обеспечения причинно-следственной, потоковой адаптации крупномасштабных моделей без потери визуального качества. Live Avatar демонстрирует наилучшую производительность, достигая скорости генерации 20 кадров/с на 5 GPU H800, и, насколько нам известно, является первой системой, достигшей практической, высокодетализированной генерации аватаров в реальном времени в таком масштабе. Наша работа устанавливает новую парадигму развертывания передовых диффузионных моделей в промышленных приложениях синтеза длинных видео.
English
Existing diffusion-based video generation methods are fundamentally constrained by sequential computation and long-horizon inconsistency, limiting their practical adoption in real-time, streaming audio-driven avatar synthesis. We present Live Avatar, an algorithm-system co-designed framework that enables efficient, high-fidelity, and infinite-length avatar generation using a 14-billion-parameter diffusion model. Our approach introduces Timestep-forcing Pipeline Parallelism (TPP), a distributed inference paradigm that pipelines denoising steps across multiple GPUs, effectively breaking the autoregressive bottleneck and ensuring stable, low-latency real-time streaming. To further enhance temporal consistency and mitigate identity drift and color artifacts, we propose the Rolling Sink Frame Mechanism (RSFM), which maintains sequence fidelity by dynamically recalibrating appearance using a cached reference image. Additionally, we leverage Self-Forcing Distribution Matching Distillation to facilitate causal, streamable adaptation of large-scale models without sacrificing visual quality. Live Avatar demonstrates state-of-the-art performance, reaching 20 FPS end-to-end generation on 5 H800 GPUs, and, to the best of our knowledge, is the first to achieve practical, real-time, high-fidelity avatar generation at this scale. Our work establishes a new paradigm for deploying advanced diffusion models in industrial long-form video synthesis applications.
PDF1113December 6, 2025