ChatPaper.aiChatPaper

Talker-T2AV: 자기회귀 확산 모델링을 통한 음성-영상 통합 생성

Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling

April 26, 2026
저자: Zhen Ye, Xu Tan, Aoxiong Yin, Hongzhan Lin, Guangyan Zhang, Peiwen Sun, Yiming Li, Chi-Min Chan, Wei Ye, Shikun Zhang, Wei Xue
cs.AI

초록

오디오-비디오 통합 생성 모델은 연쇄적 접근법보다 강력한 교차 모달리티 일관성을 보여주고 있습니다. 그러나 기존 모델은 만연한 어텐션을 통해 디노이징 과정 전반에 걸쳐 모달리티를 결합함으로써 고수준 의미 정보와 저수준 세부 사항을 완전히 얽히게 처리합니다. 이는 신경 합성 분야에 최적이 아닙니다: 오디오와 얼굴 움직임은 의미적으로 연관되어 있지만, 그 저수준 구현체(음향 신호와 시각적 텍스처)는 서로 다른 렌더링 과정을 따르기 때문입니다. 모든 수준에서의 강제적 통합 모델링은 불필요한 결합을 초래하고 효율성을 저하시킵니다. 우리는 Talker-T2AV를 제안합니다. 고수준 교차 모달리티 모델링은 공유 백본에서 이루어지고, 저수준 정제 과정은 모달리티 특화 디코더를 사용하는 자동회귀 확산 프레임워크입니다. 공유 자동회귀 언어 모델이 오디오와 비디오를 통합 패치 수준 토큰 공간에서 함께 추론합니다. 두 개의 경량 확산 트랜스포머 헤드가 은닉 상태를 프레임 수준의 오디오 및 비디오 잠재 표현으로 디코딩합니다. 신경 초상화 벤치마크 실험에서 Talker-T2AV는 입 모양 일치도, 비디오 품질, 오디오 품질에서 이중 분기 기준 모델을 능가하며, 연쇄적 파이프라인보다 강력한 교차 모달리티 일관성을 달성했습니다.
English
Joint audio-video generation models have shown that unified generation yields stronger cross-modal coherence than cascaded approaches. However, existing models couple modalities throughout denoising via pervasive attention, treating high-level semantics and low-level details in a fully entangled manner. This is suboptimal for talking head synthesis: while audio and facial motion are semantically correlated, their low-level realizations (acoustic signals and visual textures) follow distinct rendering processes. Enforcing joint modeling across all levels causes unnecessary entanglement and reduces efficiency. We propose Talker-T2AV, an autoregressive diffusion framework where high-level cross-modal modeling occurs in a shared backbone, while low-level refinement uses modality-specific decoders. A shared autoregressive language model jointly reasons over audio and video in a unified patch-level token space. Two lightweight diffusion transformer heads decode the hidden states into frame-level audio and video latents. Experiments on talking portrait benchmarks show Talker-T2AV outperforms dual-branch baselines in lip-sync accuracy, video quality, and audio quality, achieving stronger cross-modal consistency than cascaded pipelines.
PDF11May 5, 2026