Talker-T2AV : Génération conjointe audio-vidéo parlante par modélisation autoregressive de diffusion
Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling
April 26, 2026
Auteurs: Zhen Ye, Xu Tan, Aoxiong Yin, Hongzhan Lin, Guangyan Zhang, Peiwen Sun, Yiming Li, Chi-Min Chan, Wei Ye, Shikun Zhang, Wei Xue
cs.AI
Résumé
Les modèles de génération audio-vidéo conjointe ont démontré qu'une génération unifiée produit une cohérence intermodale supérieure aux approches en cascade. Cependant, les modèles existants couplent les modalités tout au long du débruitage via une attention pervasive, traitant la sémantique de haut niveau et les détails de bas niveau de manière entièrement enchevêtrée. Cette approche est sous-optimale pour la synthèse de tête parlante : si l'audio et le mouvement facial sont sémantiquement corrélés, leurs réalisations de bas niveau (signaux acoustiques et textures visuelles) suivent des processus de rendu distincts. Imposer une modélisation conjointe à tous les niveaux induit un enchevêtrement inutile et réduit l'efficacité. Nous proposons Talker-T2AV, un framework de diffusion autorégressif où la modélisation intermodale de haut niveau s'effectue dans un backbone partagé, tandis que l'affinage de bas niveau utilise des décodeurs spécifiques à chaque modalité. Un modèle de langage autorégressif partagé raisonne conjointement sur l'audio et la vidéo dans un espace de tokens unifié au niveau des patchs. Deux têtes légères de transformeurs de diffusion décodent les états cachés en latents audio et vidéo au niveau de la frame. Les expériences sur des benchmarks de portraits parlants montrent que Talker-T2AV surpasse les modèles de référence à double branche en termes de précision de synchronisation labiale, de qualité vidéo et de qualité audio, atteignant une cohérence intermodale plus forte que les pipelines en cascade.
English
Joint audio-video generation models have shown that unified generation yields stronger cross-modal coherence than cascaded approaches. However, existing models couple modalities throughout denoising via pervasive attention, treating high-level semantics and low-level details in a fully entangled manner. This is suboptimal for talking head synthesis: while audio and facial motion are semantically correlated, their low-level realizations (acoustic signals and visual textures) follow distinct rendering processes. Enforcing joint modeling across all levels causes unnecessary entanglement and reduces efficiency. We propose Talker-T2AV, an autoregressive diffusion framework where high-level cross-modal modeling occurs in a shared backbone, while low-level refinement uses modality-specific decoders. A shared autoregressive language model jointly reasons over audio and video in a unified patch-level token space. Two lightweight diffusion transformer heads decode the hidden states into frame-level audio and video latents. Experiments on talking portrait benchmarks show Talker-T2AV outperforms dual-branch baselines in lip-sync accuracy, video quality, and audio quality, achieving stronger cross-modal consistency than cascaded pipelines.