MOSS Transcribe Diarize : Transcription précise avec diarisation des locuteurs
MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization
January 4, 2026
papers.authors: MOSI. AI, Donghua Yu, Zhengyuan Lin, Chen Yang, Yiyang Zhang, Hanfu Chen, Jingqi Chen, Ke Chen, Liwei Fan, Yi Jiang, Jie Zhu, Muchen Li, Wenxuan Wang, Yang Wang, Zhe Xu, Yitian Gong, Yuqian Zhang, Wenbo Zhang, Zhaoye Fei, Qinyuan Cheng, Shimin Li, Xipeng Qiu
cs.AI
papers.abstract
La Transcription avec Attribution du Locuteur et Horodatage (SATS) vise à transcrire les paroles et à déterminer précisément la temporalité de chaque locuteur, ce qui est particulièrement précieux pour la transcription de réunions. Les systèmes SATS existants adoptent rarement une formulation de bout en bout et sont en outre limités par des fenêtres de contexte restreintes, une mémoire des locuteurs à long terme faible et l'incapacité à produire des horodatages. Pour résoudre ces limitations, nous présentons MOSS Transcribe Diarize, un modèle de langage multimodal unifié qui effectue conjointement la Transcription avec Attribution du Locuteur et Horodatage selon un paradigme de bout en bout. Entraîné sur de vastes données réelles non structurées et doté d'une fenêtre de contexte de 128k pour des entrées allant jusqu'à 90 minutes, MOSS Transcribe Diarize s'adapte efficacement et généralise de manière robuste. Lors d'évaluations exhaustives, il surpasse les systèmes commerciaux de pointe sur plusieurs benchmarks publics et internes.
English
Speaker-Attributed, Time-Stamped Transcription (SATS) aims to transcribe what is said and to precisely determine the timing of each speaker, which is particularly valuable for meeting transcription. Existing SATS systems rarely adopt an end-to-end formulation and are further constrained by limited context windows, weak long-range speaker memory, and the inability to output timestamps. To address these limitations, we present MOSS Transcribe Diarize, a unified multimodal large language model that jointly performs Speaker-Attributed, Time-Stamped Transcription in an end-to-end paradigm. Trained on extensive real wild data and equipped with a 128k context window for up to 90-minute inputs, MOSS Transcribe Diarize scales well and generalizes robustly. Across comprehensive evaluations, it outperforms state-of-the-art commercial systems on multiple public and in-house benchmarks.