StreamChar: Долгосрочная потоковая генерация аудио-видео персонажа с раздельной оркестровкой

Аннотация

Потоковая генерация совместного аудио и видео в реальном времени для анимации персонажей требует, чтобы генератор произносил запрошенный транскрипт, сохранял визуальную идентичность между чанками и работал в рамках строгого бюджета воспроизведения. Эти требования трудно удовлетворить одновременно: почанковая авторегрессивная генерация может накапливать рассогласование транскрипта и аудио, а также визуальный дрейф, в то время как дистилляция за несколько шагов, необходимая для низкой задержки, часто ухудшает пространственное разнообразие и временное качество. Мы представляем StreamChar — потоковый фреймворк, который разделяет долгосрочную оркестровку и кратковременное шумоподавление аудио-видео. Оркестратор на основе LLM использует транскрипт и исторический контекст для создания покадрово согласованных аудиоусловий, а совместный аудио-видео DiT выполняет локальное двунаправленное шумоподавление с обусловливанием по опорному кадру и кадру движения. Для эффективного развертывания мы используем двухэтапный конвейер дистилляции, который сначала сжимает сэмплер, а затем дообучает студента в условиях онлайн-развёртывания чанков. Указатель с учётом прогресса выравнивает частичные транскрипты с сгенерированным аудио во время обучения на развёртывании, а память сток-чанков обеспечивает постоянную визуальную привязку для уменьшения долгосрочного дрейфа. Эксперименты на протоколах коротких клипов и долгосрочных сценариев показывают, что StreamCha работает в реальном времени на одном GPU H100 и обеспечивает благоприятный системный компромисс между точностью транскрипта, аудиовизуальной синхронизацией, визуальным качеством и стабильностью потоковой передачи по сравнению с недавними совместными и аудиоуправляемыми базовыми моделями.

English

Real-time streaming joint audio-video generation for character animation requires a generator to speak the requested transcript, maintain visual identity across chunks, and run within a strict playback budget. These requirements are difficult to satisfy simultaneously: chunk-wise autoregressive generation can accumulate transcript-audio misalignment and visual drift, while the few-step distillation needed for low latency often degrades spatial diversity and temporal quality. We present StreamChar, a streaming framework that separates long-horizon orchestration from short-window audio-video denoising. An LLM-based orchestrator uses the transcript and historical context to produce frame-aligned audio conditions, and a joint audio-video DiT performs local bidirectional denoising with reference and motion-frame conditioning. For efficient deployment, we use a two-stage distillation pipeline that first compresses the sampler and then fine-tunes the student under online chunk rollouts. A progress-aware pointer aligns partial transcripts with generated audio during rollout training, and a sink-chunk memory provides a persistent visual anchor for reducing long-horizon drift. Experiments on short-clip and long-horizon protocols show that StreamChar runs in real time on a single H100 GPU and provides a favorable system-level trade-off among transcript fidelity, audio-visual synchronization, visual quality, and streaming stability compared with recent joint and audio-driven baselines.