Токер-T2AV: Совместная генерация озвученного аудио-видео с использованием авторегрессионного диффузионного моделирования
Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling
April 26, 2026
Авторы: Zhen Ye, Xu Tan, Aoxiong Yin, Hongzhan Lin, Guangyan Zhang, Peiwen Sun, Yiming Li, Chi-Min Chan, Wei Ye, Shikun Zhang, Wei Xue
cs.AI
Аннотация
Модели совместного аудио-видео генерации продемонстрировали, что унифицированное генерирование обеспечивает более сильную кросс-модальную согласованность по сравнению с каскадными подходами. Однако существующие модели связывают модальности на протяжении всего процесса денойзинга с помощью повсеместного использования механизма внимания, обрабатывая высокоуровневую семантику и низкоуровневые детали полностью переплетенным образом. Это неоптимально для синтеза говорящей головы: хотя аудио и лицевая моторика семантически взаимосвязаны, их низкоуровневые реализации (акустические сигналы и визуальные текстуры) следуют различным процессам рендеринга. Принудительное совместное моделирование на всех уровнях вызывает избыточное переплетение и снижает эффективность. Мы предлагаем Talker-T2AV — авторегрессионную диффузионную архитектуру, в которой высокоуровневое кросс-модальное моделирование происходит в общем основном блоке, а низкоуровневое уточнение использует модально-специфичные декодеры. Общая авторегрессионная языковая модель совместно обрабатывает аудио и видео в унифицированном токенном пространстве на уровне патчей. Два облегченных диффузионных трансформерных головных блока декодируют скрытые состояния в латентные представления аудио и видео на уровне кадров. Эксперименты на бенчмарках портретов говорящих людей показывают, что Talker-T2AV превосходит базовые модели с двумя ветвями по точности синхронизации губ, качеству видео и аудио, достигая более высокой кросс-модальной согласованности, чем каскадные конвейеры.
English
Joint audio-video generation models have shown that unified generation yields stronger cross-modal coherence than cascaded approaches. However, existing models couple modalities throughout denoising via pervasive attention, treating high-level semantics and low-level details in a fully entangled manner. This is suboptimal for talking head synthesis: while audio and facial motion are semantically correlated, their low-level realizations (acoustic signals and visual textures) follow distinct rendering processes. Enforcing joint modeling across all levels causes unnecessary entanglement and reduces efficiency. We propose Talker-T2AV, an autoregressive diffusion framework where high-level cross-modal modeling occurs in a shared backbone, while low-level refinement uses modality-specific decoders. A shared autoregressive language model jointly reasons over audio and video in a unified patch-level token space. Two lightweight diffusion transformer heads decode the hidden states into frame-level audio and video latents. Experiments on talking portrait benchmarks show Talker-T2AV outperforms dual-branch baselines in lip-sync accuracy, video quality, and audio quality, achieving stronger cross-modal consistency than cascaded pipelines.