Talker-T2AV: Generación Conjunta de Audio y Video Parlante con Modelado de Difusión Autoregresivo

Resumen

Los modelos de generación conjunta de audio y vídeo han demostrado que la generación unificada produce una coherencia cross-modal más sólida que los enfoques en cascada. Sin embargo, los modelos existentes acoplan las modalidades a lo largo de todo el proceso de eliminación de ruido mediante atención generalizada, tratando la semántica de alto nivel y los detalles de bajo nivel de una manera completamente entrelazada. Esto es subóptimo para la síntesis de cabezas parlantes: aunque el audio y el movimiento facial están correlacionados semánticamente, sus realizaciones de bajo nivel (señales acústicas y texturas visuales) siguen procesos de renderizado distintos. Forzar un modelado conjunto en todos los niveles causa un entrelazamiento innecesario y reduce la eficiencia. Proponemos Talker-T2AV, un marco de difusión autorregresivo en el que el modelado cross-modal de alto nivel ocurre en un *backbone* compartido, mientras que el refinamiento de bajo nivel utiliza decodificadores específicos por modalidad. Un modelo de lenguaje autorregresivo compartido razona conjuntamente sobre el audio y el vídeo en un espacio de tokens unificado a nivel de *patch*. Dos cabezales ligeros de transformadores de difusión decodifican los estados ocultos en latentes de audio y vídeo a nivel de fotograma. Los experimentos en benchmarks de retratos parlantes muestran que Talker-T2AV supera a los baselines de doble rama en precisión de sincronización labial, calidad de vídeo y calidad de audio, logrando una consistencia cross-modal más fuerte que las canalizaciones en cascada.

English

Joint audio-video generation models have shown that unified generation yields stronger cross-modal coherence than cascaded approaches. However, existing models couple modalities throughout denoising via pervasive attention, treating high-level semantics and low-level details in a fully entangled manner. This is suboptimal for talking head synthesis: while audio and facial motion are semantically correlated, their low-level realizations (acoustic signals and visual textures) follow distinct rendering processes. Enforcing joint modeling across all levels causes unnecessary entanglement and reduces efficiency. We propose Talker-T2AV, an autoregressive diffusion framework where high-level cross-modal modeling occurs in a shared backbone, while low-level refinement uses modality-specific decoders. A shared autoregressive language model jointly reasons over audio and video in a unified patch-level token space. Two lightweight diffusion transformer heads decode the hidden states into frame-level audio and video latents. Experiments on talking portrait benchmarks show Talker-T2AV outperforms dual-branch baselines in lip-sync accuracy, video quality, and audio quality, achieving stronger cross-modal consistency than cascaded pipelines.

Talker-T2AV: Generación Conjunta de Audio y Video Parlante con Modelado de Difusión Autoregresivo

Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling

Resumen

Support