StreamChar: Geração de Áudio-Vídeo de Personagens em Streaming de Longo Horizonte com Orquestração Desacoplada

Resumo

Geração conjunta de áudio e vídeo em streaming em tempo real para animação de personagens requer que um gerador fale a transcrição solicitada, mantenha a identidade visual entre segmentos e opere dentro de um orçamento estrito de reprodução. Esses requisitos são difíceis de satisfazer simultaneamente: a geração autoregressiva segmento a segmento pode acumular desalinhamento entre transcrição e áudio e deriva visual, enquanto a destilação de poucos passos necessária para baixa latência frequentemente degrada a diversidade espacial e a qualidade temporal. Apresentamos o StreamChar, um framework de streaming que separa a orquestração de longo horizonte do denoising de áudio e vídeo em janela curta. Um orquestrador baseado em LLM utiliza a transcrição e o contexto histórico para produzir condições de áudio alinhadas aos quadros, e um DiT conjunto de áudio e vídeo realiza denoising bidirecional local com condicionamento de referência e quadro de movimento. Para implantação eficiente, utilizamos um pipeline de destilação em dois estágios que primeiro comprime o amostrador e depois ajusta finamente o aluno sob execuções de segmentos online. Um ponteiro ciente do progresso alinha transcrições parciais com áudio gerado durante o treinamento de rollout, e uma memória de segmento âncora fornece uma âncora visual persistente para reduzir a deriva de longo horizonte. Experimentos em protocolos de clipe curto e longo horizonte mostram que o StreamChar opera em tempo real em uma única GPU H100 e oferece um trade-off favorável em nível de sistema entre fidelidade da transcrição, sincronização audiovisual, qualidade visual e estabilidade de streaming em comparação com baselines conjuntos e orientados por áudio recentes.

English

Real-time streaming joint audio-video generation for character animation requires a generator to speak the requested transcript, maintain visual identity across chunks, and run within a strict playback budget. These requirements are difficult to satisfy simultaneously: chunk-wise autoregressive generation can accumulate transcript-audio misalignment and visual drift, while the few-step distillation needed for low latency often degrades spatial diversity and temporal quality. We present StreamChar, a streaming framework that separates long-horizon orchestration from short-window audio-video denoising. An LLM-based orchestrator uses the transcript and historical context to produce frame-aligned audio conditions, and a joint audio-video DiT performs local bidirectional denoising with reference and motion-frame conditioning. For efficient deployment, we use a two-stage distillation pipeline that first compresses the sampler and then fine-tunes the student under online chunk rollouts. A progress-aware pointer aligns partial transcripts with generated audio during rollout training, and a sink-chunk memory provides a persistent visual anchor for reducing long-horizon drift. Experiments on short-clip and long-horizon protocols show that StreamChar runs in real time on a single H100 GPU and provides a favorable system-level trade-off among transcript fidelity, audio-visual synchronization, visual quality, and streaming stability compared with recent joint and audio-driven baselines.