MOSS Transcribe Diarize: Nauwkeurige Transcriptie met Sprekersherkenning
MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization
January 4, 2026
Auteurs: MOSI. AI, Donghua Yu, Zhengyuan Lin, Chen Yang, Yiyang Zhang, Hanfu Chen, Jingqi Chen, Ke Chen, Liwei Fan, Yi Jiang, Jie Zhu, Muchen Li, Wenxuan Wang, Yang Wang, Zhe Xu, Yitian Gong, Yuqian Zhang, Wenbo Zhang, Zhaoye Fei, Qinyuan Cheng, Shimin Li, Xipeng Qiu
cs.AI
Samenvatting
Spreker-Toegeschreven, Getimestampte Transcriptie (SATS) beoogt gesproken tekst te transcriberen en het spreekmoment van elke spreker precies te bepalen, wat bijzonder waardevol is voor vergadertranscriptie. Bestaande SATS-systemen gebruiken zelden een end-to-end-formulering en worden verder beperkt door beperkte contextvensters, een zwak langetermijngeheugen voor sprekers en het onvermogen om timestamps uit te voeren. Om deze beperkingen aan te pakken, presenteren we MOSS Transcribe Diarize, een verenigd multimodaal groot taalmodel dat Spreker-Toegeschreven, Getimestampte Transcriptie gezamenlijk uitvoert in een end-to-end-paradigma. Getraind op uitgebreide real-world data en uitgerust met een contextvenster van 128k voor inputs tot 90 minuten, schaalt MOSS Transcribe Diarize goed en generaliseert het robuust. In uitgebreide evaluaties presteert het beter dan state-of-the-art commerciële systemen op meerdere openbare en interne benchmarks.
English
Speaker-Attributed, Time-Stamped Transcription (SATS) aims to transcribe what is said and to precisely determine the timing of each speaker, which is particularly valuable for meeting transcription. Existing SATS systems rarely adopt an end-to-end formulation and are further constrained by limited context windows, weak long-range speaker memory, and the inability to output timestamps. To address these limitations, we present MOSS Transcribe Diarize, a unified multimodal large language model that jointly performs Speaker-Attributed, Time-Stamped Transcription in an end-to-end paradigm. Trained on extensive real wild data and equipped with a 128k context window for up to 90-minute inputs, MOSS Transcribe Diarize scales well and generalizes robustly. Across comprehensive evaluations, it outperforms state-of-the-art commercial systems on multiple public and in-house benchmarks.