LEMAS: Крупномасштабный расширяемый мультиязыковый аудиокомплекс с генеративными речевыми моделями объемом 150 тысяч часов
LEMAS: Large A 150K-Hour Large-scale Extensible Multilingual Audio Suite with Generative Speech Models
January 4, 2026
Авторы: Zhiyuan Zhao, Lijian Lin, Ye Zhu, Kai Xie, Yunfei Liu, Yu Li
cs.AI
Аннотация
Мы представляем LEMAS-Dataset — на сегодняшний день, насколько нам известно, крупнейший открытый многоязычный речевой корпус с пословными временны́ми метками. Охватывая свыше 150 000 часов аудиоданных на 10 основных языках, LEMAS-Dataset создан с помощью эффективного конвейера обработки данных, обеспечивающего высокое качество самих данных и их разметки. Для проверки эффективности набора данных в различных генеративных парадигмах мы обучили на этом корпусе две эталонные модели с различными архитектурами и специализацией задач. LEMAS-TTS, построенная на неавторегрессионной схеме flow matching, использует масштаб и лингвистическое разнообразие набора данных для достижения устойчивого многоязычного синтеза в режиме zero-shot. Предложенные нами акцент-адверсариальное обучение и CTC-функция потерь смягчают кросс-лингвистические проблемы акцента, повышая стабильность синтеза. В свою очередь, LEMAS-Edit использует авторегрессионную архитектуру только с декодером, которая формулирует редактирование речи как задачу заполнения замаскированных токенов. Благодаря использованию точных пословных выравниваний для построения обучающих масок и адаптивных стратегий декодирования, модель достигает бесшовного редактирования речи с гладкими границами и естественными переходами. Результаты экспериментов показывают, что модели, обученные на LEMAS-Dataset, демонстрируют высокое качество синтеза и редактирования, что подтверждает качество набора данных. Мы полагаем, что этот богато аннотированный временны́ми метками, детализированный многоязычный корпус будет способствовать будущим достижениям в системах генерации речи по промптам.
English
We present the LEMAS-Dataset, which, to our knowledge, is currently the largest open-source multilingual speech corpus with word-level timestamps. Covering over 150,000 hours across 10 major languages, LEMAS-Dataset is constructed via a efficient data processing pipeline that ensures high-quality data and annotations. To validate the effectiveness of LEMAS-Dataset across diverse generative paradigms, we train two benchmark models with distinct architectures and task specializations on this dataset. LEMAS-TTS, built upon a non-autoregressive flow-matching framework, leverages the dataset's massive scale and linguistic diversity to achieve robust zero-shot multilingual synthesis. Our proposed accent-adversarial training and CTC loss mitigate cross-lingual accent issues, enhancing synthesis stability. Complementarily, LEMAS-Edit employs an autoregressive decoder-only architecture that formulates speech editing as a masked token infilling task. By exploiting precise word-level alignments to construct training masks and adopting adaptive decoding strategies, it achieves seamless, smooth-boundary speech editing with natural transitions. Experimental results demonstrate that models trained on LEMAS-Dataset deliver high-quality synthesis and editing performance, confirming the dataset's quality. We envision that this richly timestamp-annotated, fine-grained multilingual corpus will drive future advances in prompt-based speech generation systems.