ChatPaper.aiChatPaper

MOSS Transcribe Diarize: 정확한 음성 인식 및 화자 분리

MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization

January 4, 2026
저자: MOSI. AI, Donghua Yu, Zhengyuan Lin, Chen Yang, Yiyang Zhang, Hanfu Chen, Jingqi Chen, Ke Chen, Liwei Fan, Yi Jiang, Jie Zhu, Muchen Li, Wenxuan Wang, Yang Wang, Zhe Xu, Yitian Gong, Yuqian Zhang, Wenbo Zhang, Zhaoye Fei, Qinyuan Cheng, Shimin Li, Xipeng Qiu
cs.AI

초록

화자 귀속 시간 표기 전사(SATS)는 발화 내용을 전사하고 각 화자의 정확한 발화 시점을 결정하는 것을 목표로 하며, 특히 회의 전사에 있어 가치가 높습니다. 기존 SATS 시스템은 종단간 방식으로 구성되는 경우가 드물 뿐만 아니라 제한된 컨텍스트 윈도우, 취약한 장기간 화자 기억 능력, 타임스탬프 출력 불가능 등의 한계에 직면해 있습니다. 이러한 한계를 해결하기 위해 우리는 종단간 패러다임으로 화자 귀속 시간 표기 전사를 통합적으로 수행하는 통합 멀티모달 대규모 언어 모델인 MOSS Transcribe Diarize를 제안합니다. 방대한 실제 데이터로 훈련되고 최대 90분 입력을 처리하는 128k 컨텍스트 윈도우를 갖춘 MOSS Transcribe Diarize는 확장성이 뛰어나고 강력한 일반화 성능을 보입니다. 포괄적인 평가에서 본 모델은 여러 공개 및 내부 벤치마크에서 최신 상용 시스템들을 능가하는 성능을 나타냈습니다.
English
Speaker-Attributed, Time-Stamped Transcription (SATS) aims to transcribe what is said and to precisely determine the timing of each speaker, which is particularly valuable for meeting transcription. Existing SATS systems rarely adopt an end-to-end formulation and are further constrained by limited context windows, weak long-range speaker memory, and the inability to output timestamps. To address these limitations, we present MOSS Transcribe Diarize, a unified multimodal large language model that jointly performs Speaker-Attributed, Time-Stamped Transcription in an end-to-end paradigm. Trained on extensive real wild data and equipped with a 128k context window for up to 90-minute inputs, MOSS Transcribe Diarize scales well and generalizes robustly. Across comprehensive evaluations, it outperforms state-of-the-art commercial systems on multiple public and in-house benchmarks.
PDF526January 16, 2026