LEMAS: Grande Suíte de Áudio Multilíngue Extensível em Larga Escala com 150 Mil Horas e Modelos de Fala Generativos

Resumo

Apresentamos o LEMAS-Dataset, que, até onde sabemos, é atualmente o maior corpus de fala multilíngue de código aberto com carimbos de tempo em nível de palavra. Abrangendo mais de 150.000 horas em 10 idiomas principais, o LEMAS-Dataset é construído por meio de um pipeline eficiente de processamento de dados que garante dados e anotações de alta qualidade. Para validar a eficácia do LEMAS-Dataset em diversos paradigmas generativos, treinamos dois modelos de referência com arquiteturas distintas e especializações de tarefa neste conjunto de dados. O LEMAS-TTS, baseado em uma estrutura não autorregressiva de correspondência de fluxo (flow-matching), aproveita a escala massiva e a diversidade linguística do conjunto de dados para alcançar uma síntese multilíngue robusta em modo zero-shot. Nossa proposta de treinamento adversarial de sotaque e perda por CTC (Connectionist Temporal Classification) mitiga problemas de sotaque cross-lingual, melhorando a estabilidade da síntese. De forma complementar, o LEMAS-Edit emprega uma arquitetura autorregressiva somente-decodificador que formula a edição de fala como uma tarefa de preenchimento de tokens mascarados. Ao explorar alinhamentos precisos em nível de palavra para construir máscaras de treinamento e adotar estratégias de decodificação adaptativas, ele alcança uma edição de fla无缝, com limites suaves e transições naturais. Resultados experimentais demonstram que os modelos treinados no LEMAS-Dataset oferecem síntese e desempenho de edição de alta qualidade, confirmando a qualidade do conjunto de dados. Vislumbramos que este corpus multilíngue ricamente anotado com carimbos de tempo e de granularidade fina impulsionará futuros avanços em sistemas de geração de fala baseada em prompt.

English

We present the LEMAS-Dataset, which, to our knowledge, is currently the largest open-source multilingual speech corpus with word-level timestamps. Covering over 150,000 hours across 10 major languages, LEMAS-Dataset is constructed via a efficient data processing pipeline that ensures high-quality data and annotations. To validate the effectiveness of LEMAS-Dataset across diverse generative paradigms, we train two benchmark models with distinct architectures and task specializations on this dataset. LEMAS-TTS, built upon a non-autoregressive flow-matching framework, leverages the dataset's massive scale and linguistic diversity to achieve robust zero-shot multilingual synthesis. Our proposed accent-adversarial training and CTC loss mitigate cross-lingual accent issues, enhancing synthesis stability. Complementarily, LEMAS-Edit employs an autoregressive decoder-only architecture that formulates speech editing as a masked token infilling task. By exploiting precise word-level alignments to construct training masks and adopting adaptive decoding strategies, it achieves seamless, smooth-boundary speech editing with natural transitions. Experimental results demonstrate that models trained on LEMAS-Dataset deliver high-quality synthesis and editing performance, confirming the dataset's quality. We envision that this richly timestamp-annotated, fine-grained multilingual corpus will drive future advances in prompt-based speech generation systems.