ChatPaper.aiChatPaper

MOSS Transcribe Diarize:話者分離を備えた高精度文字起こし

MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization

January 4, 2026
著者: MOSI. AI, Donghua Yu, Zhengyuan Lin, Chen Yang, Yiyang Zhang, Hanfu Chen, Jingqi Chen, Ke Chen, Liwei Fan, Yi Jiang, Jie Zhu, Muchen Li, Wenxuan Wang, Yang Wang, Zhe Xu, Yitian Gong, Yuqian Zhang, Wenbo Zhang, Zhaoye Fei, Qinyuan Cheng, Shimin Li, Xipeng Qiu
cs.AI

要旨

話者属性付き時間印記転写(SATS)は、発話内容の転写と各話者の発話タイミングの正確な特定を目的としており、会議の文字起こしにおいて特に価値が高い。既存のSATSシステムはエンドツーエンド方式をほとんど採用しておらず、さらに限られたコンテキストウィンドウ、弱い長距離話者記憶、時間印記の出力不能といった制約を受けている。これらの課題を解決するため、我々はマルチモーダル大規模言語モデル「MOSS Transcribe Diarize」を提案する。これはエンドツーエンドのパラダイムで話者属性付き時間印記転写を統合的に実行するモデルである。大規模な実世界データで学習され、90分までの入力に対応する128kトークンのコンテキストウィンドウを備えることで、MOSS Transcribe Diarizeは優れた拡張性と堅牢な一般化性能を示す。包括的評価において、複数の公開ベンチマークおよび自社ベンチマークで、現行の最先端商用システムを凌駕する性能を達成した。
English
Speaker-Attributed, Time-Stamped Transcription (SATS) aims to transcribe what is said and to precisely determine the timing of each speaker, which is particularly valuable for meeting transcription. Existing SATS systems rarely adopt an end-to-end formulation and are further constrained by limited context windows, weak long-range speaker memory, and the inability to output timestamps. To address these limitations, we present MOSS Transcribe Diarize, a unified multimodal large language model that jointly performs Speaker-Attributed, Time-Stamped Transcription in an end-to-end paradigm. Trained on extensive real wild data and equipped with a 128k context window for up to 90-minute inputs, MOSS Transcribe Diarize scales well and generalizes robustly. Across comprehensive evaluations, it outperforms state-of-the-art commercial systems on multiple public and in-house benchmarks.
PDF526January 16, 2026