ChatPaper.aiChatPaper

Haciendo que los sistemas de conversión de texto a voz basados en Flow Matching se rían como tú quieras en modo cero-shot

Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like

February 12, 2024
Autores: Naoyuki Kanda, Xiaofei Wang, Sefik Emre Eskimez, Manthan Thakker, Hemin Yang, Zirun Zhu, Min Tang, Canrun Li, Steven Tsai, Zhen Xiao, Yufei Xia, Jinzhu Li, Yanqing Liu, Sheng Zhao, Michael Zeng
cs.AI

Resumen

La risa es uno de los aspectos más expresivos y naturales del habla humana, transmitiendo emociones, señales sociales y humor. Sin embargo, la mayoría de los sistemas de conversión de texto a voz (TTS, por sus siglas en inglés) carecen de la capacidad de producir sonidos de risa realistas y apropiados, lo que limita sus aplicaciones y la experiencia del usuario. Aunque ha habido trabajos previos para generar risas naturales, estos no lograron controlar adecuadamente el momento y la variedad de la risa generada. En este trabajo, proponemos ELaTE, un TTS de cero-shot que puede generar habla risueña natural de cualquier hablante basándose en un breve audio de referencia, con un control preciso del momento y la expresión de la risa. Específicamente, ELaTE utiliza el audio de referencia para imitar las características de la voz, el texto de referencia para indicar el contenido del habla generada, y la entrada para controlar la expresión de la risa, que puede ser el tiempo de inicio y fin de la risa o un audio adicional que contenga la risa a imitar. Desarrollamos nuestro modelo basándonos en la base de un TTS de cero-shot basado en flujo condicional, y lo ajustamos con representaciones a nivel de fotograma de un detector de risa como condicionamiento adicional. Con un esquema simple para mezclar datos a pequeña escala condicionados por la risa con datos de pre-entrenamiento a gran escala, demostramos que un modelo TTS de cero-shot pre-entrenado puede ajustarse fácilmente para generar risas naturales con una controlabilidad precisa, sin perder la calidad del modelo TTS de cero-shot pre-entrenado. A través de las evaluaciones, mostramos que ELaTE puede generar habla risueña con una calidad y controlabilidad significativamente mayores en comparación con los modelos convencionales. Consulte https://aka.ms/elate/ para ver muestras de demostración.
English
Laughter is one of the most expressive and natural aspects of human speech, conveying emotions, social cues, and humor. However, most text-to-speech (TTS) systems lack the ability to produce realistic and appropriate laughter sounds, limiting their applications and user experience. While there have been prior works to generate natural laughter, they fell short in terms of controlling the timing and variety of the laughter to be generated. In this work, we propose ELaTE, a zero-shot TTS that can generate natural laughing speech of any speaker based on a short audio prompt with precise control of laughter timing and expression. Specifically, ELaTE works on the audio prompt to mimic the voice characteristic, the text prompt to indicate the contents of the generated speech, and the input to control the laughter expression, which can be either the start and end times of laughter, or the additional audio prompt that contains laughter to be mimicked. We develop our model based on the foundation of conditional flow-matching-based zero-shot TTS, and fine-tune it with frame-level representation from a laughter detector as additional conditioning. With a simple scheme to mix small-scale laughter-conditioned data with large-scale pre-training data, we demonstrate that a pre-trained zero-shot TTS model can be readily fine-tuned to generate natural laughter with precise controllability, without losing any quality of the pre-trained zero-shot TTS model. Through the evaluations, we show that ELaTE can generate laughing speech with significantly higher quality and controllability compared to conventional models. See https://aka.ms/elate/ for demo samples.
PDF161December 15, 2024