Pheme: Generazione Vocale Efficiente e Conversazionale

Abstract

Negli ultimi anni, la generazione vocale ha compiuto progressi straordinari, raggiungendo ora una capacità di generazione one-shot che spesso è praticamente indistinguibile dalla voce umana reale. L'integrazione di tali avanzamenti nella generazione vocale con i modelli linguistici di grandi dimensioni potrebbe rivoluzionare un'ampia gamma di applicazioni. Tuttavia, alcune applicazioni, come i sistemi conversazionali assistivi, richiedono strumenti di generazione vocale naturali e conversazionali che operino anche in modo efficiente in tempo reale. Gli attuali modelli all'avanguardia come VALL-E e SoundStorm, alimentati da codec neurali audio gerarchici, richiedono componenti neurali di grandi dimensioni e ampi set di dati di addestramento per funzionare bene. Al contrario, MQTTS mira a costruire modelli TTS conversazionali più compatti, sfruttando dati vocali conversazionali reali su scala ridotta. Tuttavia, la sua natura autoregressiva comporta un'elevata latenza di inferenza, limitando così il suo utilizzo in tempo reale. Al fine di mitigare le attuali limitazioni dei modelli TTS all'avanguardia pur sfruttandone i punti di forza, in questo lavoro introduciamo la serie di modelli Pheme che 1) offre modelli compatti ma ad alte prestazioni, 2) consente la generazione vocale parallela di 3) discorso conversazionale naturale, e 4) può essere addestrata in modo efficiente su dati conversazionali su scala ridotta, riducendo le esigenze di dati di oltre 10 volte pur mantenendo la qualità dei modelli TTS autoregressivi. Mostriamo inoltre che attraverso una semplice distillazione insegnante-studente possiamo ottenere miglioramenti significativi nella qualità vocale per configurazioni a singolo parlante, basandoci esclusivamente su discorsi sintetici generati da modelli insegnanti molto più grandi. Campioni audio e modelli pre-addestrati sono disponibili online.

English

In recent years, speech generation has seen remarkable progress, now achieving one-shot generation capability that is often virtually indistinguishable from real human voice. Integrating such advancements in speech generation with large language models might revolutionize a wide range of applications. However, certain applications, such as assistive conversational systems, require natural and conversational speech generation tools that also operate efficiently in real time. Current state-of-the-art models like VALL-E and SoundStorm, powered by hierarchical neural audio codecs, require large neural components and extensive training data to work well. In contrast, MQTTS aims to build more compact conversational TTS models while capitalizing on smaller-scale real-life conversational speech data. However, its autoregressive nature yields high inference latency and thus limits its real-time usage. In order to mitigate the current limitations of the state-of-the-art TTS models while capitalizing on their strengths, in this work we introduce the Pheme model series that 1) offers compact yet high-performing models, 2) allows for parallel speech generation of 3) natural conversational speech, and 4) it can be trained efficiently on smaller-scale conversational data, cutting data demands by more than 10x but still matching the quality of the autoregressive TTS models. We also show that through simple teacher-student distillation we can meet significant improvements in voice quality for single-speaker setups on top of pretrained Pheme checkpoints, relying solely on synthetic speech generated by much larger teacher models. Audio samples and pretrained models are available online.

Pheme: Generazione Vocale Efficiente e Conversazionale

Pheme: Efficient and Conversational Speech Generation

Abstract

Support