StreamChar: Langzeit-Streaming-Audio-Video-Generierung von Charakteren mit entkoppelter Orchestrierung

Zusammenfassung

Echtzeit-Streaming zur gemeinsamen Audio-Video-Erzeugung für Figurenanimation erfordert einen Generator, der das angeforderte Transkript spricht, die visuelle Identität über Chunks hinweg beibehält und innerhalb eines strengen Wiedergabebudgets läuft. Diese Anforderungen sind schwer gleichzeitig zu erfüllen: chunkweise autoregressive Erzeugung kann Transkript-Audio-Fehlausrichtung und visuelle Drift akkumulieren, während die für niedrige Latenz erforderliche Wenige-Schritt-Destillation oft die räumliche Diversität und zeitliche Qualität beeinträchtigt. Wir präsentieren StreamChar, ein Streaming-Framework, das die Langzeit-Orchestrierung von der Kurzfenster-Audio-Video-Entrauschung trennt. Ein LLM-basierter Orchestrator nutzt das Transkript und historischen Kontext, um rahmenabgestimmte Audiobedingungen zu erzeugen, und ein gemeinsames Audio-Video-DiT führt eine lokale bidirektionale Entrauschung mit Referenz- und Bewegungsrahmenbedingungen durch. Für eine effiziente Bereitstellung verwenden wir eine zweistufige Destillationspipeline, die zunächst den Sampler komprimiert und dann den Studenten unter Online-Chunk-Rollouts feinabstimmt. Ein fortschrittsbewusster Zeiger richtet partielle Transkripte während der Rollout-Schulung mit erzeugtem Audio aus, und ein Sink-Chunk-Speicher bietet einen persistenten visuellen Anker zur Reduzierung von Langzeitdrift. Experimente mit Kurzclip- und Langzeitprotokollen zeigen, dass StreamChar in Echtzeit auf einer einzelnen H100-GPU läuft und einen günstigen systemweiten Kompromiss zwischen Transkripttreue, audiovisueller Synchronisation, visueller Qualität und Streaming-Stabilität im Vergleich zu aktuellen gemeinsamen und audiogesteuerten Basislinien bietet.

English

Real-time streaming joint audio-video generation for character animation requires a generator to speak the requested transcript, maintain visual identity across chunks, and run within a strict playback budget. These requirements are difficult to satisfy simultaneously: chunk-wise autoregressive generation can accumulate transcript-audio misalignment and visual drift, while the few-step distillation needed for low latency often degrades spatial diversity and temporal quality. We present StreamChar, a streaming framework that separates long-horizon orchestration from short-window audio-video denoising. An LLM-based orchestrator uses the transcript and historical context to produce frame-aligned audio conditions, and a joint audio-video DiT performs local bidirectional denoising with reference and motion-frame conditioning. For efficient deployment, we use a two-stage distillation pipeline that first compresses the sampler and then fine-tunes the student under online chunk rollouts. A progress-aware pointer aligns partial transcripts with generated audio during rollout training, and a sink-chunk memory provides a persistent visual anchor for reducing long-horizon drift. Experiments on short-clip and long-horizon protocols show that StreamChar runs in real time on a single H100 GPU and provides a favorable system-level trade-off among transcript fidelity, audio-visual synchronization, visual quality, and streaming stability compared with recent joint and audio-driven baselines.