StreamChar : Génération de flux audio-vidéo de personnages sur long horizon avec orchestration découplée

Résumé

La génération conjointe audio-vidéo en temps réel pour l’animation de personnages nécessite un générateur capable de prononcer le texte demandé, de maintenir l’identité visuelle entre les segments et de fonctionner dans un budget de lecture strict. Ces exigences sont difficiles à satisfaire simultanément : la génération autorégressive par segments peut accumuler un décalage entre le texte et l’audio ainsi qu’une dérive visuelle, tandis que la distillation en quelques étapes nécessaire à une faible latence dégrade souvent la diversité spatiale et la qualité temporelle. Nous présentons StreamChar, un framework de streaming qui sépare l’orchestration à long terme du débruitage audio-vidéo à courte fenêtre. Un orchestrateur basé sur un LLM utilise le texte et le contexte historique pour produire des conditions audio alignées sur les images, et un DiT conjoint audio-vidéo effectue un débruitage bidirectionnel local avec un conditionnement par image de référence et image de mouvement. Pour un déploiement efficace, nous utilisons un pipeline de distillation en deux étapes qui comprime d’abord l’échantillonneur puis affine le modèle étudiant lors de déploiements en ligne par segments. Un pointeur conscient de la progression aligne les transcriptions partielles avec l’audio généré pendant l’entraînement par déploiements, et une mémoire de segments d’ancrage fournit un ancrage visuel persistant pour réduire la dérive à long horizon. Les expériences menées sur des protocoles de clips courts et d’horizons longs montrent que StreamChar fonctionne en temps réel sur un seul GPU H100 et offre un compromis favorable au niveau du système entre la fidélité à la transcription, la synchronisation audio-visuelle, la qualité visuelle et la stabilité du streaming par rapport aux récentes approches conjointes et pilotées par l’audio.

English

Real-time streaming joint audio-video generation for character animation requires a generator to speak the requested transcript, maintain visual identity across chunks, and run within a strict playback budget. These requirements are difficult to satisfy simultaneously: chunk-wise autoregressive generation can accumulate transcript-audio misalignment and visual drift, while the few-step distillation needed for low latency often degrades spatial diversity and temporal quality. We present StreamChar, a streaming framework that separates long-horizon orchestration from short-window audio-video denoising. An LLM-based orchestrator uses the transcript and historical context to produce frame-aligned audio conditions, and a joint audio-video DiT performs local bidirectional denoising with reference and motion-frame conditioning. For efficient deployment, we use a two-stage distillation pipeline that first compresses the sampler and then fine-tunes the student under online chunk rollouts. A progress-aware pointer aligns partial transcripts with generated audio during rollout training, and a sink-chunk memory provides a persistent visual anchor for reducing long-horizon drift. Experiments on short-clip and long-horizon protocols show that StreamChar runs in real time on a single H100 GPU and provides a favorable system-level trade-off among transcript fidelity, audio-visual synchronization, visual quality, and streaming stability compared with recent joint and audio-driven baselines.