ChatPaper.aiChatPaper

LEMAS: Suite de Audio Multilingüe Extensible a Gran Escala de 150.000 Horas con Modelos de Voz Generativos

LEMAS: Large A 150K-Hour Large-scale Extensible Multilingual Audio Suite with Generative Speech Models

January 4, 2026
Autores: Zhiyuan Zhao, Lijian Lin, Ye Zhu, Kai Xie, Yunfei Liu, Yu Li
cs.AI

Resumen

Presentamos LEMAS-Dataset, que, hasta donde sabemos, es actualmente el corpus de voz multilingüe de código abierto más grande con marcas de tiempo a nivel de palabra. Abarcando más de 150.000 horas en 10 idiomas principales, LEMAS-Dataset se construye mediante una canalización de procesamiento de datos eficiente que garantiza datos y anotaciones de alta calidad. Para validar la efectividad de LEMAS-Dataset en diversos paradigmas generativos, entrenamos dos modelos de referencia con arquitecturas y especializaciones de tareas distintas en este conjunto de datos. LEMAS-TTS, basado en un marco no autoregresivo de emparejamiento de flujos, aprovecha la escala masiva y la diversidad lingüística del conjunto de datos para lograr una síntesis multilingüe robusta de cero disparos. Nuestro entrenamiento acento-adversario propuesto y la pérdida CTC mitigan los problemas de acento cruzado, mejorando la estabilidad de la síntesis. De manera complementaria, LEMAS-Edit emplea una arquitectura autoregresiva solo-decodificador que formula la edición de voz como una tarea de relleno de tokens enmascarados. Al explotar las alineaciones precisas a nivel de palabra para construir máscaras de entrenamiento y adoptar estrategias de decodificación adaptativas, logra una edición de voz fluida, con límites suaves y transiciones naturales. Los resultados experimentales demuestran que los modelos entrenados en LEMAS-Dataset ofrecen una síntesis y un rendimiento de edición de alta calidad, lo que confirma la calidad del conjunto de datos. Prevemos que este corpus multilingüe de grano fino, ricamente anotado con marcas de tiempo, impulsará futuros avances en los sistemas de generación de voz basados en prompts.
English
We present the LEMAS-Dataset, which, to our knowledge, is currently the largest open-source multilingual speech corpus with word-level timestamps. Covering over 150,000 hours across 10 major languages, LEMAS-Dataset is constructed via a efficient data processing pipeline that ensures high-quality data and annotations. To validate the effectiveness of LEMAS-Dataset across diverse generative paradigms, we train two benchmark models with distinct architectures and task specializations on this dataset. LEMAS-TTS, built upon a non-autoregressive flow-matching framework, leverages the dataset's massive scale and linguistic diversity to achieve robust zero-shot multilingual synthesis. Our proposed accent-adversarial training and CTC loss mitigate cross-lingual accent issues, enhancing synthesis stability. Complementarily, LEMAS-Edit employs an autoregressive decoder-only architecture that formulates speech editing as a masked token infilling task. By exploiting precise word-level alignments to construct training masks and adopting adaptive decoding strategies, it achieves seamless, smooth-boundary speech editing with natural transitions. Experimental results demonstrate that models trained on LEMAS-Dataset deliver high-quality synthesis and editing performance, confirming the dataset's quality. We envision that this richly timestamp-annotated, fine-grained multilingual corpus will drive future advances in prompt-based speech generation systems.
PDF01January 10, 2026