StreamChar: Generación de audio-video de personajes en streaming de largo horizonte con orquestación desacoplada

Resumen

La generación conjunta de audio y video en tiempo real para la animación de personajes requiere que un generador reproduzca la transcripción solicitada, mantenga la identidad visual entre segmentos y opere dentro de un estricto presupuesto de reproducción. Estos requisitos son difíciles de satisfacer simultáneamente: la generación autorregresiva por segmentos puede acumular desalineación entre la transcripción y el audio y deriva visual, mientras que la destilación de pocos pasos necesaria para baja latencia a menudo degrada la diversidad espacial y la calidad temporal. Presentamos StreamChar, un marco de transmisión que separa la orquestación a largo plazo de la eliminación de ruido de audio y video en ventanas cortas. Un orquestador basado en LLM utiliza la transcripción y el contexto histórico para producir condiciones de audio alineadas por fotograma, y un DiT conjunto de audio y video realiza eliminación de ruido bidireccional local con acondicionamiento de fotogramas de referencia y movimiento. Para un despliegue eficiente, utilizamos una tubería de destilación en dos etapas que primero comprime el muestreador y luego ajusta el estudiante bajo despliegues de segmentos en línea. Un puntero consciente del progreso alinea transcripciones parciales con el audio generado durante el entrenamiento con despliegues, y una memoria de segmento sumidero proporciona un ancla visual persistente para reducir la deriva a largo plazo. Experimentos en protocolos de clips cortos y horizontes largos muestran que StreamChar funciona en tiempo real en una sola GPU H100 y ofrece un equilibrio favorable a nivel de sistema entre fidelidad de la transcripción, sincronización audiovisual, calidad visual y estabilidad de la transmisión en comparación con líneas base conjuntas y basadas en audio recientes.

English

Real-time streaming joint audio-video generation for character animation requires a generator to speak the requested transcript, maintain visual identity across chunks, and run within a strict playback budget. These requirements are difficult to satisfy simultaneously: chunk-wise autoregressive generation can accumulate transcript-audio misalignment and visual drift, while the few-step distillation needed for low latency often degrades spatial diversity and temporal quality. We present StreamChar, a streaming framework that separates long-horizon orchestration from short-window audio-video denoising. An LLM-based orchestrator uses the transcript and historical context to produce frame-aligned audio conditions, and a joint audio-video DiT performs local bidirectional denoising with reference and motion-frame conditioning. For efficient deployment, we use a two-stage distillation pipeline that first compresses the sampler and then fine-tunes the student under online chunk rollouts. A progress-aware pointer aligns partial transcripts with generated audio during rollout training, and a sink-chunk memory provides a persistent visual anchor for reducing long-horizon drift. Experiments on short-clip and long-horizon protocols show that StreamChar runs in real time on a single H100 GPU and provides a favorable system-level trade-off among transcript fidelity, audio-visual synchronization, visual quality, and streaming stability compared with recent joint and audio-driven baselines.