ChatPaper.aiChatPaper

RealTalk: Генерация лиц на основе аудио в реальном времени с учетом реалистичности с помощью сети выравнивания личности с учетом трехмерного предварительного направления лица.

RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network

June 26, 2024
Авторы: Xiaozhong Ji, Chuming Lin, Zhonggan Ding, Ying Tai, Jian Yang, Junwei Zhu, Xiaobin Hu, Jiangning Zhang, Donghao Luo, Chengjie Wang
cs.AI

Аннотация

Генерация лица по аудиосигналу для общего лица является сложной задачей в компьютерном зрении. Предыдущие методы достигли значительного прогресса в синхронизации аудио-видео, однако между текущими результатами и практическими применениями по-прежнему существует значительный разрыв. Вызовы двойные: 1) Сохранение уникальных индивидуальных черт для достижения высокоточной синхронизации губ. 2) Генерация высококачественных визуализаций лиц в реальном времени. В данной статье мы предлагаем новую обобщенную аудио-ориентированную структуру RealTalk, которая состоит из трансформатора аудио-выражения и высококачественного рендерера выражений-лиц. В первом компоненте мы рассматриваем как идентичность, так и особенности внутриличностных вариаций, связанных с движениями губ при произнесении. Путем включения кросс-модального внимания к обогащенным лицевым данным мы можем эффективно выравнивать движения губ с аудио, достигая тем самым большей точности в предсказании выражения. Во втором компоненте мы разрабатываем модуль легкой идентификации лица (FIA), включающий структуру управления формой губ и структуру текстуры лица. Этот новаторский дизайн позволяет нам генерировать мелкие детали в реальном времени, не завися от сложных и неэффективных модулей выравнивания особенностей. Наши экспериментальные результаты, как количественные, так и качественные, на общедоступных наборах данных демонстрируют явные преимущества нашего метода в плане синхронизации речи и качества генерации губ. Более того, наш метод эффективен и требует меньше вычислительных ресурсов, что делает его отлично подходящим для практических применений.
English
Person-generic audio-driven face generation is a challenging task in computer vision. Previous methods have achieved remarkable progress in audio-visual synchronization, but there is still a significant gap between current results and practical applications. The challenges are two-fold: 1) Preserving unique individual traits for achieving high-precision lip synchronization. 2) Generating high-quality facial renderings in real-time performance. In this paper, we propose a novel generalized audio-driven framework RealTalk, which consists of an audio-to-expression transformer and a high-fidelity expression-to-face renderer. In the first component, we consider both identity and intra-personal variation features related to speaking lip movements. By incorporating cross-modal attention on the enriched facial priors, we can effectively align lip movements with audio, thus attaining greater precision in expression prediction. In the second component, we design a lightweight facial identity alignment (FIA) module which includes a lip-shape control structure and a face texture reference structure. This novel design allows us to generate fine details in real-time, without depending on sophisticated and inefficient feature alignment modules. Our experimental results, both quantitative and qualitative, on public datasets demonstrate the clear advantages of our method in terms of lip-speech synchronization and generation quality. Furthermore, our method is efficient and requires fewer computational resources, making it well-suited to meet the needs of practical applications.

Summary

AI-Generated Summary

PDF202November 28, 2024