**LEMAS: 생성형 음성 모델을 갖춘 150K-Hour 대규모 확장 가능 다국어 오디오 스위트** * **대규모 (Large-scale):** 15만 시간(150K-Hour)이라는 방대한 규모의 데이터셋을 의미합니다. * **확장 가능 (Extensible):** 데이터셋의 규모나 언어를 추가로 확장할 수 있는 구조를 가졌음을 나타냅니다. * **다국어 (Multilingual):** 여러 언어를 포함하고 있습니다. * **생성형 음성 모델 (Generative Speech Models):** 텍스트나 다른 입력을 통해 새로운 음성을 생성해내는 인공지능 모델을 의미합니다. * **오디오 스위트 (Audio Suite):** 다양한 오디오 데이터와 관련 도구/모델을 포함한 포괄적인 패키지 또는 컬렉션을 지칭합니다.
LEMAS: Large A 150K-Hour Large-scale Extensible Multilingual Audio Suite with Generative Speech Models
January 4, 2026
저자: Zhiyuan Zhao, Lijian Lin, Ye Zhu, Kai Xie, Yunfei Liu, Yu Li
cs.AI
초록
본 논문에서는 우리가 아는 한 현재 단어 수준의 타임스탬프가 포함된 공개 음성 코퍼스 중 가장 규모가 큰 LEMAS-Dataset을 소개한다. 10개 주요 언어에 걸쳐 15만 시간 이상을 포괄하는 LEMAS-Dataset은 고품질 데이터와 어노테이션을 보장하는 효율적인 데이터 처리 파이프라인을 통해 구축되었다. 다양한 생성 패러다임에서 LEMAS-Dataset의 효과를 검증하기 위해, 본 데이터셋을 기반으로 서로 다른 아키텍처와 과제 특화성을 지닌 두 가지 벤치마크 모델을 학습하였다. 비자회귀적 흐름 정합 프레임워크를 기반으로 구축된 LEMAS-TTS는 데이터셋의 대규모 특성과 언어적 다양성을 활용하여 견고한 제로샷 다국어 합성을 달성한다. 제안된 억양-적대적 학습과 CTC 손실은 언어 간 억양 문제를 완화하여 합성 안정성을 향상시킨다. 상호 보완적으로, LEMAS-Edit은 음성 편집을 마스킹된 토큰 채우기 과제로 공식화하는 자회귀 디코더 전용 아키텍처를 채택한다. 정밀한 단어 수준 정렬을 활용하여 훈련 마스크를 구성하고 적응형 디코딩 전략을 도입함으로써, 자연스러운 전환과 매끄러운 경계를 지닌 원활한 음성 편집을 실현한다. 실험 결과는 LEMAS-Dataset으로 학습된 모델이 높은 품질의 합성 및 편집 성능을 제공함을 보여주며, 이는 데이터셋의 우수한 품질을 입증한다. 우리는 이렇게 풍부한 타임스탬프 어노테이션이 달린 세분화된 다국어 코퍼스가 프롬프트 기반 음성 생성 시스템의 미래 발전을 이끌 것으로 기대한다.
English
We present the LEMAS-Dataset, which, to our knowledge, is currently the largest open-source multilingual speech corpus with word-level timestamps. Covering over 150,000 hours across 10 major languages, LEMAS-Dataset is constructed via a efficient data processing pipeline that ensures high-quality data and annotations. To validate the effectiveness of LEMAS-Dataset across diverse generative paradigms, we train two benchmark models with distinct architectures and task specializations on this dataset. LEMAS-TTS, built upon a non-autoregressive flow-matching framework, leverages the dataset's massive scale and linguistic diversity to achieve robust zero-shot multilingual synthesis. Our proposed accent-adversarial training and CTC loss mitigate cross-lingual accent issues, enhancing synthesis stability. Complementarily, LEMAS-Edit employs an autoregressive decoder-only architecture that formulates speech editing as a masked token infilling task. By exploiting precise word-level alignments to construct training masks and adopting adaptive decoding strategies, it achieves seamless, smooth-boundary speech editing with natural transitions. Experimental results demonstrate that models trained on LEMAS-Dataset deliver high-quality synthesis and editing performance, confirming the dataset's quality. We envision that this richly timestamp-annotated, fine-grained multilingual corpus will drive future advances in prompt-based speech generation systems.