LEMAS : Suite Audio Multilingue Extensible à Grande Échelle de 150 000 Heures avec Modèles de Parole Générative
LEMAS: Large A 150K-Hour Large-scale Extensible Multilingual Audio Suite with Generative Speech Models
January 4, 2026
papers.authors: Zhiyuan Zhao, Lijian Lin, Ye Zhu, Kai Xie, Yunfei Liu, Yu Li
cs.AI
papers.abstract
Nous présentons LEMAS-Dataset, qui est, à notre connaissance, le plus grand corpus de parole multilingue open-source avec des horodatages au niveau du mot. Couvrant plus de 150 000 heures réparties sur 10 langues majeures, LEMAS-Dataset est construit via un pipeline de traitement de données efficace qui garantit des données et des annotations de haute qualité. Pour valuer l'efficacité de LEMAS-Dataset dans divers paradigmes génératifs, nous entraînons deux modèles de référence avec des architectures et spécialisations de tâches distinctes sur cet ensemble de données. LEMAS-TTS, construit sur un cadre non autorégressif de flow matching, exploite l'échelle massive et la diversité linguistique du jeu de données pour réaliser une synthèse multilingue zero-shot robuste. Notre entraînement adversarial pour les accents et la perte CTC proposés atténuent les problèmes d'accents translinguistiques, améliorant la stabilité de la synthèse. En complément, LEMAS-Edit utilise une architecture autorégressive décodeur-seul qui formule l'édition de la parole comme une tâche de remplissage de tokens masqués. En exploitant les alignements précis au niveau du mot pour construire des masques d'entraînement et en adoptant des stratégies de décodage adaptatives, il réalise une édition de parole fluide avec des transitions naturelles et des limites imperceptibles. Les résultats expérimentaux démontrent que les modèles entraînés sur LEMAS-Dataset offrent une synthèse et des performances d'édition de haute qualité, confirmant la qualité de l'ensemble de données. Nous envisageons que ce corpus multilingue finement annoté et riche en horodatages stimulera les progrès futurs des systèmes de génération de parole par prompt.
English
We present the LEMAS-Dataset, which, to our knowledge, is currently the largest open-source multilingual speech corpus with word-level timestamps. Covering over 150,000 hours across 10 major languages, LEMAS-Dataset is constructed via a efficient data processing pipeline that ensures high-quality data and annotations. To validate the effectiveness of LEMAS-Dataset across diverse generative paradigms, we train two benchmark models with distinct architectures and task specializations on this dataset. LEMAS-TTS, built upon a non-autoregressive flow-matching framework, leverages the dataset's massive scale and linguistic diversity to achieve robust zero-shot multilingual synthesis. Our proposed accent-adversarial training and CTC loss mitigate cross-lingual accent issues, enhancing synthesis stability. Complementarily, LEMAS-Edit employs an autoregressive decoder-only architecture that formulates speech editing as a masked token infilling task. By exploiting precise word-level alignments to construct training masks and adopting adaptive decoding strategies, it achieves seamless, smooth-boundary speech editing with natural transitions. Experimental results demonstrate that models trained on LEMAS-Dataset deliver high-quality synthesis and editing performance, confirming the dataset's quality. We envision that this richly timestamp-annotated, fine-grained multilingual corpus will drive future advances in prompt-based speech generation systems.