ChatPaper.aiChatPaper

Pheme: Effiziente und konversationsorientierte Sprachgenerierung

Pheme: Efficient and Conversational Speech Generation

January 5, 2024
Autoren: Paweł Budzianowski, Taras Sereda, Tomasz Cichy, Ivan Vulić
cs.AI

Zusammenfassung

In den letzten Jahren hat die Sprachgenerierung bemerkenswerte Fortschritte erzielt und erreicht nun eine One-Shot-Generierungsfähigkeit, die oft kaum von echter menschlicher Stimme zu unterscheiden ist. Die Integration solcher Fortschritte in der Sprachgenerierung mit großen Sprachmodellen könnte eine Vielzahl von Anwendungen revolutionieren. Bestimmte Anwendungen, wie assistive Konversationssysteme, erfordern jedoch natürliche und konversationelle Sprachgenerierungswerkzeuge, die auch in Echtzeit effizient arbeiten. Aktuelle State-of-the-Art-Modelle wie VALL-E und SoundStorm, die durch hierarchische neuronale Audiocodecs angetrieben werden, benötigen große neuronale Komponenten und umfangreiche Trainingsdaten, um gut zu funktionieren. Im Gegensatz dazu zielt MQTTS darauf ab, kompaktere konversationelle TTS-Modelle zu entwickeln, während es kleinere reale Konversationssprachdaten nutzt. Allerdings führt seine autoregressive Natur zu hoher Inferenzlatenz und schränkt somit seine Echtzeitnutzung ein. Um die aktuellen Einschränkungen der State-of-the-Art-TTS-Modelle zu mildern und gleichzeitig ihre Stärken zu nutzen, führen wir in dieser Arbeit die Pheme-Modellserie ein, die 1) kompakte, aber leistungsstarke Modelle bietet, 2) parallele Sprachgenerierung ermöglicht, 3) natürliche Konversationssprache erzeugt und 4) effizient mit kleineren Konversationsdatensätzen trainiert werden kann, wodurch der Datenbedarf um mehr als das 10-fache reduziert wird, aber dennoch die Qualität der autoregressiven TTS-Modelle erreicht. Wir zeigen auch, dass wir durch einfache Teacher-Student-Distillation signifikante Verbesserungen in der Sprachqualität für Einzelsprecher-Setups auf Basis vortrainierter Pheme-Checkpoints erzielen können, wobei wir uns ausschließlich auf synthetische Sprache stützen, die von viel größeren Teacher-Modellen generiert wurde. Audio-Beispiele und vortrainierte Modelle sind online verfügbar.
English
In recent years, speech generation has seen remarkable progress, now achieving one-shot generation capability that is often virtually indistinguishable from real human voice. Integrating such advancements in speech generation with large language models might revolutionize a wide range of applications. However, certain applications, such as assistive conversational systems, require natural and conversational speech generation tools that also operate efficiently in real time. Current state-of-the-art models like VALL-E and SoundStorm, powered by hierarchical neural audio codecs, require large neural components and extensive training data to work well. In contrast, MQTTS aims to build more compact conversational TTS models while capitalizing on smaller-scale real-life conversational speech data. However, its autoregressive nature yields high inference latency and thus limits its real-time usage. In order to mitigate the current limitations of the state-of-the-art TTS models while capitalizing on their strengths, in this work we introduce the Pheme model series that 1) offers compact yet high-performing models, 2) allows for parallel speech generation of 3) natural conversational speech, and 4) it can be trained efficiently on smaller-scale conversational data, cutting data demands by more than 10x but still matching the quality of the autoregressive TTS models. We also show that through simple teacher-student distillation we can meet significant improvements in voice quality for single-speaker setups on top of pretrained Pheme checkpoints, relying solely on synthetic speech generated by much larger teacher models. Audio samples and pretrained models are available online.
PDF182December 15, 2024