ChatPaper.aiChatPaper

Takin: Uma Coorte de Modelos de Geração de Fala de Qualidade Superior sem Necessidade de Treinamento

Takin: A Cohort of Superior Quality Zero-shot Speech Generation Models

September 18, 2024
Autores: EverestAI, Sijin Chen, Yuan Feng, Laipeng He, Tianwei He, Wendi He, Yanni Hu, Bin Lin, Yiting Lin, Pengfei Tan, Chengwei Tian, Chen Wang, Zhicheng Wang, Ruoye Xie, Jingjing Yin, Jianhao Ye, Jixun Yao, Quanlei Yan, Yuguang Yang
cs.AI

Resumo

Com o advento da era do big data e dos grandes modelos de linguagem, a personalização rápida e personalizada sem necessidade de ajustes prévios emergiu como uma tendência significativa. Neste relatório, apresentamos o Takin AudioLLM, uma série de técnicas e modelos, incluindo principalmente o Takin TTS, Takin VC e Takin Morphing, especificamente projetados para a produção de audiolivros. Esses modelos são capazes de produção de fala sem necessidade de ajustes prévios, gerando fala de alta qualidade que é quase indistinguível da fala humana real e facilitando que indivíduos personalizem o conteúdo da fala de acordo com suas próprias necessidades. Especificamente, primeiro introduzimos o Takin TTS, um modelo de linguagem de codec neural que se baseia em um codec de fala neural aprimorado e em um framework de treinamento multi-tarefa, capaz de gerar fala natural de alta fidelidade de forma sem necessidade de ajustes prévios. Para o Takin VC, defendemos uma abordagem eficaz de modelagem conjunta de conteúdo e timbre para melhorar a similaridade do locutor, ao mesmo tempo que defendemos um decodificador baseado em fluxo condicional para aprimorar ainda mais sua naturalidade e expressividade. Por fim, propomos o sistema Takin Morphing com abordagens altamente desacopladas e avançadas de modelagem de timbre e prosódia, que permitem que os indivíduos personalizem a produção de fala com seu timbre e prosódia preferidos de maneira precisa e controlável. Experimentos extensivos validam a eficácia e robustez de nossos modelos da série Takin AudioLLM. Para demonstrações detalhadas, consulte https://takinaudiollm.github.io.
English
With the advent of the big data and large language model era, zero-shot personalized rapid customization has emerged as a significant trend. In this report, we introduce Takin AudioLLM, a series of techniques and models, mainly including Takin TTS, Takin VC, and Takin Morphing, specifically designed for audiobook production. These models are capable of zero-shot speech production, generating high-quality speech that is nearly indistinguishable from real human speech and facilitating individuals to customize the speech content according to their own needs. Specifically, we first introduce Takin TTS, a neural codec language model that builds upon an enhanced neural speech codec and a multi-task training framework, capable of generating high-fidelity natural speech in a zero-shot way. For Takin VC, we advocate an effective content and timbre joint modeling approach to improve the speaker similarity, while advocating for a conditional flow matching based decoder to further enhance its naturalness and expressiveness. Last, we propose the Takin Morphing system with highly decoupled and advanced timbre and prosody modeling approaches, which enables individuals to customize speech production with their preferred timbre and prosody in a precise and controllable manner. Extensive experiments validate the effectiveness and robustness of our Takin AudioLLM series models. For detailed demos, please refer to https://takinaudiollm.github.io.

Summary

AI-Generated Summary

PDF124November 16, 2024