Talker-T2AV: Gezamenlijke Generatie van Sprekende Audio en Video met Autoregressieve Diffusiemodellering

Samenvatting

Gezamenlijke audio-videogeneratiemodellen hebben aangetoond dat uniforme generatie een sterkere cross-modale samenhang oplevert dan gecascadeerde benaderingen. Bestaande modellen koppelen modaliteiten echter gedurende het gehele denoiseproces via alomtegenwoordige aandacht, waarbij hoogwaardige semantiek en laagwaardige details op een volledig verstrengelde manier worden behandeld. Dit is suboptimaal voor talking head-synthese: hoewel audio en gezichtsbeweging semantisch gecorreleerd zijn, volgen hun laagwaardige realisaties (akoestische signalen en visuele texturen) distincte weergaveprocessen. Het afdwingen van gezamenlijke modellering op alle niveaus veroorzaakt onnodige verstrengeling en vermindert de efficiëntie. Wij stellen Talker-T2AV voor, een autogressief diffusieraamwerk waarbij hoogwaardige cross-modale modellering plaatsvindt in een gedeelde backbone, terwijl laagwaardige verfijning gebruikmaakt van modaliteitsspecifieke decoders. Een gedeeld autogressief taalmodel redeneert gezamenlijk over audio en video in een uniforme patchgebaseerde tokenruimte. Twee lichtgewicht diffusie-transformerkoppen decoderen de verborgen toestanden naar framegebaseerde audio- en videolatents. Experimenten op talking portrait-benchmarks tonen aan dat Talker-T2AV dual-branch-baselines overtreft in lip-sync-nauwkeurigheid, videokwaliteit en audiokwaliteit, en sterkere cross-modale consistentie bereikt dan gecascadeerde pijplijnen.

English

Joint audio-video generation models have shown that unified generation yields stronger cross-modal coherence than cascaded approaches. However, existing models couple modalities throughout denoising via pervasive attention, treating high-level semantics and low-level details in a fully entangled manner. This is suboptimal for talking head synthesis: while audio and facial motion are semantically correlated, their low-level realizations (acoustic signals and visual textures) follow distinct rendering processes. Enforcing joint modeling across all levels causes unnecessary entanglement and reduces efficiency. We propose Talker-T2AV, an autoregressive diffusion framework where high-level cross-modal modeling occurs in a shared backbone, while low-level refinement uses modality-specific decoders. A shared autoregressive language model jointly reasons over audio and video in a unified patch-level token space. Two lightweight diffusion transformer heads decode the hidden states into frame-level audio and video latents. Experiments on talking portrait benchmarks show Talker-T2AV outperforms dual-branch baselines in lip-sync accuracy, video quality, and audio quality, achieving stronger cross-modal consistency than cascaded pipelines.

Talker-T2AV: Gezamenlijke Generatie van Sprekende Audio en Video met Autoregressieve Diffusiemodellering

Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling

Samenvatting

Support