Talker-T2AV: Gemeinsame Generierung von sprechenden Audio-Video-Inhalten mit autoregressiver Diffusionsmodellierung
Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling
April 26, 2026
Autoren: Zhen Ye, Xu Tan, Aoxiong Yin, Hongzhan Lin, Guangyan Zhang, Peiwen Sun, Yiming Li, Chi-Min Chan, Wei Ye, Shikun Zhang, Wei Xue
cs.AI
Zusammenfassung
Gemeinsame Audio-Video-Generierungsmodelle haben gezeigt, dass einheitliche Generierung eine stärkere cross-modale Kohärenz liefert als kaskadierte Ansätze. Bestehende Modelle koppeln Modalitäten jedoch während des gesamten Denoising-Prozesses durch allgegenwärtige Attention-Mechanismen und behandeln hochgradige Semantik und niedriggradige Details auf vollständig verschränkte Weise. Dies ist für die Talking-Head-Synthese suboptimal: Während Audio und Gesichtsbewegungen semantisch korreliert sind, folgen ihre niedriggradigen Realisierungen (akustische Signale und visuelle Texturen) unterschiedlichen Renderprozessen. Eine erzwungene gemeinsame Modellierung über alle Ebenen hinweg verursacht unnötige Verschränkung und reduziert die Effizienz. Wir schlagen Talker-T2AV vor, ein autoregressives Diffusionsframework, bei dem die hochgradige cross-modale Modellierung in einem gemeinsamen Backbone stattfindet, während die niedriggradige Verfeinerung modalspezifische Decoder verwendet. Ein gemeinsames autoregressives Sprachmodell verarbeitet Audio und Video gemeinsam in einem einheitlichen Patch-Level-Tokenraum. Zwei leichte Diffusions-Transformer-Köpfe dekodieren die verborgenen Zustände in Frame-Level-Audio- und -Video-Latenzen. Experimente auf Talking-Portrait-Benchmarks zeigen, dass Talker-T2AV dual-branch-Baselines in Lippensynchronisationsgenauigkeit, Videoqualität und Audioqualität übertrifft und eine stärkere cross-modale Konsistenz als kaskadierte Pipelines erreicht.
English
Joint audio-video generation models have shown that unified generation yields stronger cross-modal coherence than cascaded approaches. However, existing models couple modalities throughout denoising via pervasive attention, treating high-level semantics and low-level details in a fully entangled manner. This is suboptimal for talking head synthesis: while audio and facial motion are semantically correlated, their low-level realizations (acoustic signals and visual textures) follow distinct rendering processes. Enforcing joint modeling across all levels causes unnecessary entanglement and reduces efficiency. We propose Talker-T2AV, an autoregressive diffusion framework where high-level cross-modal modeling occurs in a shared backbone, while low-level refinement uses modality-specific decoders. A shared autoregressive language model jointly reasons over audio and video in a unified patch-level token space. Two lightweight diffusion transformer heads decode the hidden states into frame-level audio and video latents. Experiments on talking portrait benchmarks show Talker-T2AV outperforms dual-branch baselines in lip-sync accuracy, video quality, and audio quality, achieving stronger cross-modal consistency than cascaded pipelines.