Кросс-модальный перенос эмоций для редактирования эмоций в видео говорящего лица

Аннотация

Генерация говорящих лиц привлекает значительное внимание как ключевое приложение генеративных моделей. Для повышения выразительности и реалистичности синтезированных видео редактирование эмоций в видео с говорящим лицом играет crucialную роль. Однако существующие подходы часто ограничивают экспрессивную гибкость и испытывают трудности с генерацией сложных эмоций. Методы на основе меток представляют эмоции дискретными категориями, что не позволяет охватить широкий спектр эмоциональных проявлений. Аудио-методы могут использовать богатые эмоциями речевые сигналы — и даже получать преимущества от выразительного синтеза речи (TTS) — но они не способны точно передавать целевые эмоции, поскольку эмоции и лингвистическое содержание переплетены в эмоциональной речи. Методы на основе изображений, в свою очередь, полагаются на целевые референсные изображения для управления переносом эмоций, однако они требуют высококачественных фронтальных видов и сталкиваются с трудностями при получении референсных данных для сложных эмоций (например, сарказма). Для преодоления этих ограничений мы предлагаем Cross-Modal Emotion Transfer (C-MET) — новый подход, который генерирует мимику на основе речи путем моделирования семантических векторов эмоций между речевым и визуальным пространствами признаков. C-MET использует крупномасштабный предобученный аудио-энкодер и дискретизированный энкодер мимики для изучения семантических векторов эмоций, представляющих разницу между двумя различными эмоциональными эмбеддингами across модальностями. Экстенсивные эксперименты на наборах данных MEAD и CREMA-D демонстрируют, что наш метод улучшает точность распознавания эмоций на 14% по сравнению с передовыми методами, одновременно генерируя выразительные видео говорящих лиц — даже для непредставленных сложных эмоций. Код, чекпоинты и демо доступны по адресу https://chanhyeok-choi.github.io/C-MET/

English

Talking face generation has gained significant attention as a core application of generative models. To enhance the expressiveness and realism of synthesized videos, emotion editing in talking face video plays a crucial role. However, existing approaches often limit expressive flexibility and struggle to generate extended emotions. Label-based methods represent emotions with discrete categories, which fail to capture a wide range of emotions. Audio-based methods can leverage emotionally rich speech signals - and even benefit from expressive text-to-speech (TTS) synthesis - but they fail to express the target emotions because emotions and linguistic contents are entangled in emotional speeches. Images-based methods, on the other hand, rely on target reference images to guide emotion transfer, yet they require high-quality frontal views and face challenges in acquiring reference data for extended emotions (e.g., sarcasm). To address these limitations, we propose Cross-Modal Emotion Transfer (C-MET), a novel approach that generates facial expressions based on speeches by modeling emotion semantic vectors between speech and visual feature spaces. C-MET leverages a large-scale pretrained audio encoder and a disentangled facial expression encoder to learn emotion semantic vectors that represent the difference between two different emotional embeddings across modalities. Extensive experiments on the MEAD and CREMA-D datasets demonstrate that our method improves emotion accuracy by 14% over state-of-the-art methods, while generating expressive talking face videos - even for unseen extended emotions. Code, checkpoint, and demo are available at https://chanhyeok-choi.github.io/C-MET/

Кросс-модальный перенос эмоций для редактирования эмоций в видео говорящего лица

Cross-Modal Emotion Transfer for Emotion Editing in Talking Face Video

Аннотация

Support