LEMAS: Large A 150K-Hour Large-scale Extensible Multilingual Audio Suite con Modelli di Sintesi Vocale Generativa

Abstract

Presentiamo LEMAS-Dataset, che, a nostra conoscenza, è attualmente il più grande corpus vocale multilingue open-source con timestamp a livello di parola. Coprendo oltre 150.000 ore in 10 lingue principali, LEMAS-Dataset è costruito tramite una pipeline di elaborazione dati efficiente che garantisce dati e annotazioni di alta qualità. Per validare l'efficacia di LEMAS-Dataset in paradigmi generativi diversificati, addestriamo due modelli di riferimento con architetture e specializzazioni di compito distinte su questo dataset. LEMAS-TTS, basato su un framework non autoregressivo di flow-matching, sfrutta la scala massiccia e la diversità linguistica del dataset per ottenere una sintesi multilingue zero-shot robusta. Il nostro approccio di addestramento accent-adversarial e la loss CTC mitigano i problemi di accento cross-linguale, migliorando la stabilità della sintesi. In modo complementare, LEMAS-Edit utilizza un'architettura autoregressiva decoder-only che formula l'editing vocale come un task di infilling di token mascherati. Sfruttando gli allineamenti precisi a livello di parola per costruire maschere di addestramento e adottando strategie di decoding adattive, esso raggiunge un editing vocale seamless con limiti fluidi e transizioni naturali. I risultati sperimentali dimostrano che i modelli addestrati su LEMAS-Dataset forniscono prestazioni di sintesi e editing di alta qualità, confermando la qualità del dataset. Prevediamo che questo corpus multilingue riccamente annotato con timestamp e di granularità fine guiderà i futuri progressi nei sistemi di generazione vocale basati su prompt.

English

We present the LEMAS-Dataset, which, to our knowledge, is currently the largest open-source multilingual speech corpus with word-level timestamps. Covering over 150,000 hours across 10 major languages, LEMAS-Dataset is constructed via a efficient data processing pipeline that ensures high-quality data and annotations. To validate the effectiveness of LEMAS-Dataset across diverse generative paradigms, we train two benchmark models with distinct architectures and task specializations on this dataset. LEMAS-TTS, built upon a non-autoregressive flow-matching framework, leverages the dataset's massive scale and linguistic diversity to achieve robust zero-shot multilingual synthesis. Our proposed accent-adversarial training and CTC loss mitigate cross-lingual accent issues, enhancing synthesis stability. Complementarily, LEMAS-Edit employs an autoregressive decoder-only architecture that formulates speech editing as a masked token infilling task. By exploiting precise word-level alignments to construct training masks and adopting adaptive decoding strategies, it achieves seamless, smooth-boundary speech editing with natural transitions. Experimental results demonstrate that models trained on LEMAS-Dataset deliver high-quality synthesis and editing performance, confirming the dataset's quality. We envision that this richly timestamp-annotated, fine-grained multilingual corpus will drive future advances in prompt-based speech generation systems.

LEMAS: Large A 150K-Hour Large-scale Extensible Multilingual Audio Suite con Modelli di Sintesi Vocale Generativa

LEMAS: Large A 150K-Hour Large-scale Extensible Multilingual Audio Suite with Generative Speech Models

Abstract

Support