ChatPaper.aiChatPaper

MOSS Transcribe Diarize: Präzise Transkription mit Sprechererkennung

MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization

January 4, 2026
papers.authors: MOSI. AI, Donghua Yu, Zhengyuan Lin, Chen Yang, Yiyang Zhang, Hanfu Chen, Jingqi Chen, Ke Chen, Liwei Fan, Yi Jiang, Jie Zhu, Muchen Li, Wenxuan Wang, Yang Wang, Zhe Xu, Yitian Gong, Yuqian Zhang, Wenbo Zhang, Zhaoye Fei, Qinyuan Cheng, Shimin Li, Xipeng Qiu
cs.AI

papers.abstract

Die sprecherzugeordnete, zeitgestempelte Transkription (SATS) zielt darauf ab, gesprochene Inhalte zu verschriftlichen und gleichzeitig die genauen Zeitpunkte jedes Sprechers zu erfassen, was besonders für die Transkription von Besprechungen wertvoll ist. Bisherige SATS-Systeme nutzen selten einen End-to-End-Ansatz und sind zudem durch begrenzte Kontextfenster, schwache Langzeitsprechererkennung und die Unfähigkeit zur Zeitstempelausgabe eingeschränkt. Um diese Defizite zu beheben, stellen wir MOSS Transcribe Diarize vor – ein vereinheitlichtes multimodales Großsprachmodell, das sprecherzugeordnete Transkription mit Zeitstempeln in einem End-to-End-Paradigma gemeinsam durchführt. Das Modell wurde mit umfangreichen realen Daten trainiert, verfügt über ein 128k-Kontextfenster für bis zu 90-minütige Eingaben und skaliert sowie generalisiert robust. In umfassenden Evaluierungen übertrifft es state-of-the-art kommerzielle Systeme auf mehreren öffentlichen und internen Benchmarks.
English
Speaker-Attributed, Time-Stamped Transcription (SATS) aims to transcribe what is said and to precisely determine the timing of each speaker, which is particularly valuable for meeting transcription. Existing SATS systems rarely adopt an end-to-end formulation and are further constrained by limited context windows, weak long-range speaker memory, and the inability to output timestamps. To address these limitations, we present MOSS Transcribe Diarize, a unified multimodal large language model that jointly performs Speaker-Attributed, Time-Stamped Transcription in an end-to-end paradigm. Trained on extensive real wild data and equipped with a 128k context window for up to 90-minute inputs, MOSS Transcribe Diarize scales well and generalizes robustly. Across comprehensive evaluations, it outperforms state-of-the-art commercial systems on multiple public and in-house benchmarks.
PDF452January 8, 2026