ChatPaper.aiChatPaper

정체성 분리와 감정 협력: 상관관계 인식 감정적 말하는 초상화 생성

Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation

April 25, 2025
저자: Weipeng Tan, Chuming Lin, Chengming Xu, FeiFan Xu, Xiaobin Hu, Xiaozhong Ji, Junwei Zhu, Chengjie Wang, Yanwei Fu
cs.AI

초록

최근 Talking Head Generation(THG) 분야에서 확산 모델을 통해 인상적인 입술 동기화와 시각적 품질을 달성한 연구들이 등장하고 있으나, 기존 방법들은 화자 신원을 유지하면서도 감정 표현이 풍부한 초상화를 생성하는 데 어려움을 겪고 있다. 본 연구는 현재의 감정적 Talking Head 생성에서 세 가지 주요 한계점을 확인하였다: 오디오의 내재적 감정 신호 활용 부족, 감정 표현에서의 신원 누출, 그리고 감정 상관관계의 고립된 학습. 이러한 문제를 해결하기 위해, 우리는 신원과 감정을 분리하고 유사한 특성을 가진 감정들을 협력적으로 학습하는 DICE-Talk이라는 새로운 프레임워크를 제안한다. 첫째, 교차 모달 어텐션을 통해 오디오-시각적 감정 신호를 공동으로 모델링하고, 감정을 신원과 무관한 가우시안 분포로 표현하는 분리된 감정 임베더를 개발하였다. 둘째, 벡터 양자화와 어텐션 기반 특징 집계를 통해 감정 간 관계를 명시적으로 포착하는 학습 가능한 Emotion Banks를 포함한 상관관계 강화 감정 조건화 모듈을 도입하였다. 셋째, 잠재 공간 분류를 통해 확산 과정 중 감정적 일관성을 강제하는 감정 판별 목적 함수를 설계하였다. MEAD 및 HDTF 데이터셋에서의 광범위한 실험을 통해, 우리의 방법이 감정 정확도에서 최첨단 접근법을 능가하면서도 경쟁력 있는 입술 동기화 성능을 유지함을 입증하였다. 질적 결과와 사용자 연구는 또한 우리의 방법이 보이지 않는 신원에 자연스럽게 적응하는 풍부하고 상관된 감정 표현을 가진 신원 보존 초상화를 생성할 수 있음을 확인시켜 주었다.
English
Recent advances in Talking Head Generation (THG) have achieved impressive lip synchronization and visual quality through diffusion models; yet existing methods struggle to generate emotionally expressive portraits while preserving speaker identity. We identify three critical limitations in current emotional talking head generation: insufficient utilization of audio's inherent emotional cues, identity leakage in emotion representations, and isolated learning of emotion correlations. To address these challenges, we propose a novel framework dubbed as DICE-Talk, following the idea of disentangling identity with emotion, and then cooperating emotions with similar characteristics. First, we develop a disentangled emotion embedder that jointly models audio-visual emotional cues through cross-modal attention, representing emotions as identity-agnostic Gaussian distributions. Second, we introduce a correlation-enhanced emotion conditioning module with learnable Emotion Banks that explicitly capture inter-emotion relationships through vector quantization and attention-based feature aggregation. Third, we design an emotion discrimination objective that enforces affective consistency during the diffusion process through latent-space classification. Extensive experiments on MEAD and HDTF datasets demonstrate our method's superiority, outperforming state-of-the-art approaches in emotion accuracy while maintaining competitive lip-sync performance. Qualitative results and user studies further confirm our method's ability to generate identity-preserving portraits with rich, correlated emotional expressions that naturally adapt to unseen identities.

Summary

AI-Generated Summary

PDF31April 30, 2025