Разделение идентичности, согласование эмоций: генерация эмоциональных говорящих портретов с учетом корреляций
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation
April 25, 2025
Авторы: Weipeng Tan, Chuming Lin, Chengming Xu, FeiFan Xu, Xiaobin Hu, Xiaozhong Ji, Junwei Zhu, Chengjie Wang, Yanwei Fu
cs.AI
Аннотация
Последние достижения в области генерации говорящих голов (THG) позволили добиться впечатляющей синхронизации губ и высокого визуального качества благодаря использованию диффузионных моделей; однако существующие методы сталкиваются с трудностями при создании эмоционально выразительных портретов с сохранением идентичности говорящего. Мы выделяем три ключевых ограничения в текущих подходах к генерации эмоциональных говорящих голов: недостаточное использование эмоциональных сигналов, заложенных в аудио, утечка идентичности в представлениях эмоций и изолированное изучение корреляций между эмоциями. Для решения этих проблем мы предлагаем новую структуру под названием DICE-Talk, основанную на идее разделения идентичности и эмоций с последующим объединением эмоций, обладающих схожими характеристиками. Во-первых, мы разрабатываем разделяемый эмоциональный эмбеддер, который совместно моделирует аудиовизуальные эмоциональные сигналы с помощью кросс-модального внимания, представляя эмоции в виде идентичностно-независимых гауссовских распределений. Во-вторых, мы вводим модуль усиленного корреляциями эмоционального кондиционирования с обучаемыми "Банками Эмоций", которые явно фиксируют взаимосвязи между эмоциями через векторное квантование и агрегацию признаков на основе внимания. В-третьих, мы разрабатываем цель дискриминации эмоций, которая обеспечивает аффективную согласованность в процессе диффузии через классификацию в латентном пространстве. Эксперименты на наборах данных MEAD и HDTF демонстрируют превосходство нашего метода, превосходящего современные подходы по точности передачи эмоций при сохранении конкурентоспособной синхронизации губ. Качественные результаты и пользовательские исследования дополнительно подтверждают способность нашего метода создавать портреты с сохранением идентичности, богатыми и взаимосвязанными эмоциональными выражениями, которые естественно адаптируются к новым идентичностям.
English
Recent advances in Talking Head Generation (THG) have achieved impressive lip
synchronization and visual quality through diffusion models; yet existing
methods struggle to generate emotionally expressive portraits while preserving
speaker identity. We identify three critical limitations in current emotional
talking head generation: insufficient utilization of audio's inherent emotional
cues, identity leakage in emotion representations, and isolated learning of
emotion correlations. To address these challenges, we propose a novel framework
dubbed as DICE-Talk, following the idea of disentangling identity with emotion,
and then cooperating emotions with similar characteristics. First, we develop a
disentangled emotion embedder that jointly models audio-visual emotional cues
through cross-modal attention, representing emotions as identity-agnostic
Gaussian distributions. Second, we introduce a correlation-enhanced emotion
conditioning module with learnable Emotion Banks that explicitly capture
inter-emotion relationships through vector quantization and attention-based
feature aggregation. Third, we design an emotion discrimination objective that
enforces affective consistency during the diffusion process through
latent-space classification. Extensive experiments on MEAD and HDTF datasets
demonstrate our method's superiority, outperforming state-of-the-art approaches
in emotion accuracy while maintaining competitive lip-sync performance.
Qualitative results and user studies further confirm our method's ability to
generate identity-preserving portraits with rich, correlated emotional
expressions that naturally adapt to unseen identities.Summary
AI-Generated Summary