ChatPaper.aiChatPaper

Pheme: Generación de Habla Eficiente y Conversacional

Pheme: Efficient and Conversational Speech Generation

January 5, 2024
Autores: Paweł Budzianowski, Taras Sereda, Tomasz Cichy, Ivan Vulić
cs.AI

Resumen

En los últimos años, la generación de voz ha experimentado avances notables, logrando ahora una capacidad de generación en una sola toma que a menudo es prácticamente indistinguible de la voz humana real. Integrar estos avances en la generación de voz con modelos de lenguaje extensos podría revolucionar una amplia gama de aplicaciones. Sin embargo, ciertas aplicaciones, como los sistemas conversacionales de asistencia, requieren herramientas de generación de voz natural y conversacional que también funcionen de manera eficiente en tiempo real. Los modelos actuales más avanzados, como VALL-E y SoundStorm, impulsados por códecs neuronales jerárquicos de audio, requieren grandes componentes neuronales y extensos datos de entrenamiento para funcionar bien. En contraste, MQTTS busca construir modelos TTS conversacionales más compactos mientras aprovecha datos de habla conversacional de la vida real a menor escala. Sin embargo, su naturaleza autoregresiva genera una alta latencia en la inferencia, lo que limita su uso en tiempo real. Para mitigar las limitaciones actuales de los modelos TTS más avanzados mientras se capitalizan sus fortalezas, en este trabajo presentamos la serie de modelos Pheme que 1) ofrece modelos compactos pero de alto rendimiento, 2) permite la generación paralela de voz, 3) produce habla conversacional natural, y 4) puede entrenarse de manera eficiente con datos conversacionales a menor escala, reduciendo la demanda de datos en más de 10 veces pero aún igualando la calidad de los modelos TTS autoregresivos. También demostramos que, a través de una simple destilación maestro-estudiante, podemos lograr mejoras significativas en la calidad de la voz para configuraciones de un solo hablante sobre puntos de control preentrenados de Pheme, dependiendo únicamente de voz sintética generada por modelos maestros mucho más grandes. Las muestras de audio y los modelos preentrenados están disponibles en línea.
English
In recent years, speech generation has seen remarkable progress, now achieving one-shot generation capability that is often virtually indistinguishable from real human voice. Integrating such advancements in speech generation with large language models might revolutionize a wide range of applications. However, certain applications, such as assistive conversational systems, require natural and conversational speech generation tools that also operate efficiently in real time. Current state-of-the-art models like VALL-E and SoundStorm, powered by hierarchical neural audio codecs, require large neural components and extensive training data to work well. In contrast, MQTTS aims to build more compact conversational TTS models while capitalizing on smaller-scale real-life conversational speech data. However, its autoregressive nature yields high inference latency and thus limits its real-time usage. In order to mitigate the current limitations of the state-of-the-art TTS models while capitalizing on their strengths, in this work we introduce the Pheme model series that 1) offers compact yet high-performing models, 2) allows for parallel speech generation of 3) natural conversational speech, and 4) it can be trained efficiently on smaller-scale conversational data, cutting data demands by more than 10x but still matching the quality of the autoregressive TTS models. We also show that through simple teacher-student distillation we can meet significant improvements in voice quality for single-speaker setups on top of pretrained Pheme checkpoints, relying solely on synthetic speech generated by much larger teacher models. Audio samples and pretrained models are available online.
PDF182December 15, 2024