LEMAS: Groot 150K-Uur Grootschalig Uitbreidbaar Meertalig Audiopakket met Generatieve Spraakmodellen
LEMAS: Large A 150K-Hour Large-scale Extensible Multilingual Audio Suite with Generative Speech Models
January 4, 2026
Auteurs: Zhiyuan Zhao, Lijian Lin, Ye Zhu, Kai Xie, Yunfei Liu, Yu Li
cs.AI
Samenvatting
Wij presenteren de LEMAS-Dataset, die voor zover wij weten momenteel het grootste open-source meertalige spraakcorpus met woordniveau-timestamps is. Met een omvang van meer dan 150.000 uur verspreid over 10 belangrijke talen, is de LEMAS-Dataset geconstrueerd via een efficiënte dataverwerkingspijplijn die hoogwaardige data en annotaties garandeert. Om de effectiviteit van de LEMAS-Dataset in diverse generatieve paradigma's te valideren, trainen we twee benchmarkmodellen met verschillende architecturen en taakspecialisaties op deze dataset. LEMAS-TTS, gebouwd op een niet-autoregressief flow-matching raamwerk, benut de enorme schaal en linguïstische diversiteit van de dataset om robuuste zero-shot meertalige synthese te bereiken. Onze voorgestelde accent-adversariële training en CTC-verlies verminderen cross-linguale accentproblemen en verbeteren de synthesestabiliteit. Complementair hieraan hanteert LEMAS-Edit een autoregressieve decoder-only architectuur die spraakbewerking formuleert als een masked token infilling-taak. Door gebruik te maken van precieze woordniveau-aligneringen om trainingsmaskers te construeren en adaptieve decodeerstrategieën toe te passen, bereikt het naadloze spraakbewerking met vloeiende grenzen en natuurlijke overgangen. Experimentele resultaten tonen aan dat modellen getraind op de LEMAS-Dataset hoogwaardige synthese- en bewerkingsprestaties leveren, wat de kwaliteit van de dataset bevestigt. Wij voorzien dat dit rijkelijk met timestamps geannoteerde, fijnkorrelige meertalige corpus toekomstige vooruitgang in op prompts gebaseerde spraakgeneratiesystemen zal aanjagen.
English
We present the LEMAS-Dataset, which, to our knowledge, is currently the largest open-source multilingual speech corpus with word-level timestamps. Covering over 150,000 hours across 10 major languages, LEMAS-Dataset is constructed via a efficient data processing pipeline that ensures high-quality data and annotations. To validate the effectiveness of LEMAS-Dataset across diverse generative paradigms, we train two benchmark models with distinct architectures and task specializations on this dataset. LEMAS-TTS, built upon a non-autoregressive flow-matching framework, leverages the dataset's massive scale and linguistic diversity to achieve robust zero-shot multilingual synthesis. Our proposed accent-adversarial training and CTC loss mitigate cross-lingual accent issues, enhancing synthesis stability. Complementarily, LEMAS-Edit employs an autoregressive decoder-only architecture that formulates speech editing as a masked token infilling task. By exploiting precise word-level alignments to construct training masks and adopting adaptive decoding strategies, it achieves seamless, smooth-boundary speech editing with natural transitions. Experimental results demonstrate that models trained on LEMAS-Dataset deliver high-quality synthesis and editing performance, confirming the dataset's quality. We envision that this richly timestamp-annotated, fine-grained multilingual corpus will drive future advances in prompt-based speech generation systems.