StreamChar: Lange-Horizon Streaming Karakter Audio-Video Generatie met Ontkoppelde Orkestratie

Samenvatting

Real-time streaming van gezamenlijke audio-videogeneratie voor personage-animatie vereist een generator die het gevraagde transcript uitspreekt, de visuele identiteit over chunks behoudt en binnen een strikt afspeelbudget werkt. Deze vereisten zijn moeilijk gelijktijdig te vervullen: chunkgewijze autoregressieve generatie kan transcript-audio-misalignering en visuele drift accumuleren, terwijl de paarstappendistillatie die nodig is voor lage latentie vaak de ruimtelijke diversiteit en temporele kwaliteit aantast. Wij presenteren StreamChar, een streamingframework dat orkestratie over lange horizon scheidt van audio-video-ontruising over korte vensters. Een op LLM gebaseerde orkestrator gebruikt het transcript en historische context om frame-uitgelijnde audio-condities te produceren, en een gezamenlijke audio-video-DiT voert lokale bidirectionele ontruising uit met referentie- en bewegingsframe-conditionering. Voor efficiënte inzet gebruiken we een tweefasige distillatiepijplijn die eerst de sampler comprimeert en vervolgens de student fine-tuned tijdens online chunk rollouts. Een voortgangsbewuste pointer lijnt gedeeltelijke transcripts uit met gegenereerde audio tijdens rollout-training, en een sink-chunk-geheugen biedt een aanhoudend visueel anker om drift over lange horizon te verminderen. Experimenten op korte-clip- en lange-horizon-protocollen tonen aan dat StreamChar real-time draait op een enkele H100 GPU en een gunstige systeemniveau-afweging biedt qua transcriptgetrouwheid, audio-visuele synchronisatie, visuele kwaliteit en streamingstabiliteit vergeleken met recente gezamenlijke en audio-gestuurde baselines.

English

Real-time streaming joint audio-video generation for character animation requires a generator to speak the requested transcript, maintain visual identity across chunks, and run within a strict playback budget. These requirements are difficult to satisfy simultaneously: chunk-wise autoregressive generation can accumulate transcript-audio misalignment and visual drift, while the few-step distillation needed for low latency often degrades spatial diversity and temporal quality. We present StreamChar, a streaming framework that separates long-horizon orchestration from short-window audio-video denoising. An LLM-based orchestrator uses the transcript and historical context to produce frame-aligned audio conditions, and a joint audio-video DiT performs local bidirectional denoising with reference and motion-frame conditioning. For efficient deployment, we use a two-stage distillation pipeline that first compresses the sampler and then fine-tunes the student under online chunk rollouts. A progress-aware pointer aligns partial transcripts with generated audio during rollout training, and a sink-chunk memory provides a persistent visual anchor for reducing long-horizon drift. Experiments on short-clip and long-horizon protocols show that StreamChar runs in real time on a single H100 GPU and provides a favorable system-level trade-off among transcript fidelity, audio-visual synchronization, visual quality, and streaming stability compared with recent joint and audio-driven baselines.