ChatPaper.aiChatPaper

MOSS Transcribe Diarize: Точная расшифровка с определением говорящих

MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization

January 4, 2026
Авторы: MOSI. AI, Donghua Yu, Zhengyuan Lin, Chen Yang, Yiyang Zhang, Hanfu Chen, Jingqi Chen, Ke Chen, Liwei Fan, Yi Jiang, Jie Zhu, Muchen Li, Wenxuan Wang, Yang Wang, Zhe Xu, Yitian Gong, Yuqian Zhang, Wenbo Zhang, Zhaoye Fei, Qinyuan Cheng, Shimin Li, Xipeng Qiu
cs.AI

Аннотация

Система распознавания речи с атрибуцией говорящих и временными метками (SATS) предназначена для расшифровки речи с точным определением временных интервалов каждого говорящего, что особенно ценно при транскрибировании совещаний. Существующие SATS-системы редко используют сквозной подход и дополнительно ограничены коротким контекстным окном, слабой долговременной памятью о говорящих и неспособностью выводить временные метки. Для устранения этих ограничений мы представляем MOSS Transcribe Diarize — унифицированную мультимодальную большую языковую модель, которая совместно выполняет распознавание речи с атрибуцией говорящих и временными метками в сквозном режиме. Обученная на обширных реальных данных и оснащённая контекстным окном в 128 тыс. токенов для обработки входных данных длительностью до 90 минут, модель MOSS Transcribe Diarize хорошо масштабируется и демонстрирует высокую обобщающую способность. По результатам всесторонних оценок она превосходит передовые коммерческие системы на нескольких публичных и внутренних тестовых наборах.
English
Speaker-Attributed, Time-Stamped Transcription (SATS) aims to transcribe what is said and to precisely determine the timing of each speaker, which is particularly valuable for meeting transcription. Existing SATS systems rarely adopt an end-to-end formulation and are further constrained by limited context windows, weak long-range speaker memory, and the inability to output timestamps. To address these limitations, we present MOSS Transcribe Diarize, a unified multimodal large language model that jointly performs Speaker-Attributed, Time-Stamped Transcription in an end-to-end paradigm. Trained on extensive real wild data and equipped with a 128k context window for up to 90-minute inputs, MOSS Transcribe Diarize scales well and generalizes robustly. Across comprehensive evaluations, it outperforms state-of-the-art commercial systems on multiple public and in-house benchmarks.
PDF452January 8, 2026