ChatPaper.aiChatPaper

LEMAS: 大規模拡張可能な多言語音声スイート - 150K時間の大規模データと生成音声モデルを備えた

LEMAS: Large A 150K-Hour Large-scale Extensible Multilingual Audio Suite with Generative Speech Models

January 4, 2026
著者: Zhiyuan Zhao, Lijian Lin, Ye Zhu, Kai Xie, Yunfei Liu, Yu Li
cs.AI

要旨

本論文では、単語レベルタイムスタンプを有する現時点で最大規模のオープンソース多言語音声コーパスであるLEMAS-Datasetを提案する。10の主要言語にわたり15万時間以上を網羅する本データセットは、高品質なデータとアノテーションを保証する効率的なデータ処理パイプラインにより構築されている。多様な生成パラダイムにおける本データセットの有効性を検証するため、異なるアーキテクチャとタスク特化性を有する2つのベンチマークモデルを学習した。非自己回帰的フローマッチングフレームワークに基づくLEMAS-TTSは、データセットの大規模性と言語的多様性を活用し、ロバストなゼロショット多言語合成を実現する。提案するアクセント敵対学習とCTC損失は言語間のアクセント問題を緩和し、合成の安定性を向上させる。相補的に、LEMAS-Editはマスク付きトークン補完タスクとして音声編集を定式化する自己回帰デコーダのみのアーキテクチャを採用する。正確な単語レベルアライメントを活用した学習マスク構築と適応的解碼戦略により、自然な遷移を伴うシームレスで滑らかな境界の音声編集を実現する。実験結果は、LEMAS-Datasetで学習したモデルが高品質な合成と編集性能を発揮することを示し、データセットの品質を確認する。この豊富なタイムスタンプ注釈付き細粒度多言語コーパスが、プロンプトベース音声生成システムの将来的発展を推進することを期待する。
English
We present the LEMAS-Dataset, which, to our knowledge, is currently the largest open-source multilingual speech corpus with word-level timestamps. Covering over 150,000 hours across 10 major languages, LEMAS-Dataset is constructed via a efficient data processing pipeline that ensures high-quality data and annotations. To validate the effectiveness of LEMAS-Dataset across diverse generative paradigms, we train two benchmark models with distinct architectures and task specializations on this dataset. LEMAS-TTS, built upon a non-autoregressive flow-matching framework, leverages the dataset's massive scale and linguistic diversity to achieve robust zero-shot multilingual synthesis. Our proposed accent-adversarial training and CTC loss mitigate cross-lingual accent issues, enhancing synthesis stability. Complementarily, LEMAS-Edit employs an autoregressive decoder-only architecture that formulates speech editing as a masked token infilling task. By exploiting precise word-level alignments to construct training masks and adopting adaptive decoding strategies, it achieves seamless, smooth-boundary speech editing with natural transitions. Experimental results demonstrate that models trained on LEMAS-Dataset deliver high-quality synthesis and editing performance, confirming the dataset's quality. We envision that this richly timestamp-annotated, fine-grained multilingual corpus will drive future advances in prompt-based speech generation systems.
PDF01January 10, 2026