MOSS Transcribe Diarize: Transcripción Precisa con Diarización de Hablantes
MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization
January 4, 2026
Autores: MOSI. AI, Donghua Yu, Zhengyuan Lin, Chen Yang, Yiyang Zhang, Hanfu Chen, Jingqi Chen, Ke Chen, Liwei Fan, Yi Jiang, Jie Zhu, Muchen Li, Wenxuan Wang, Yang Wang, Zhe Xu, Yitian Gong, Yuqian Zhang, Wenbo Zhang, Zhaoye Fei, Qinyuan Cheng, Shimin Li, Xipeng Qiu
cs.AI
Resumen
La Transcripción con Atribución de Hablante y Marca Temporal (SATS) tiene como objetivo transcribir lo que se dice y determinar con precisión el momento en que habla cada interlocutor, lo cual es especialmente valioso para la transcripción de reuniones. Los sistemas SATS existentes rara vez adoptan una formulación de extremo a extremo y se ven limitados por ventanas de contexto reducidas, una memoria débil de hablantes a largo plazo y la incapacidad de generar marcas temporales. Para abordar estas limitaciones, presentamos MOSS Transcribe Diarize, un modelo de lenguaje grande multimodal unificado que realiza conjuntamente la Transcripción con Atribución de Hablante y Marca Temporal en un paradigma de extremo a extremo. Entrenado con extensos datos reales no controlados y equipado con una ventana de contexto de 128k para entradas de hasta 90 minutos, MOSS Transcribe Diarize escala eficientemente y generaliza con robustez. En evaluaciones exhaustivas, supera a los sistemas comerciales más avanzados en múltiples benchmarks públicos e internos.
English
Speaker-Attributed, Time-Stamped Transcription (SATS) aims to transcribe what is said and to precisely determine the timing of each speaker, which is particularly valuable for meeting transcription. Existing SATS systems rarely adopt an end-to-end formulation and are further constrained by limited context windows, weak long-range speaker memory, and the inability to output timestamps. To address these limitations, we present MOSS Transcribe Diarize, a unified multimodal large language model that jointly performs Speaker-Attributed, Time-Stamped Transcription in an end-to-end paradigm. Trained on extensive real wild data and equipped with a 128k context window for up to 90-minute inputs, MOSS Transcribe Diarize scales well and generalizes robustly. Across comprehensive evaluations, it outperforms state-of-the-art commercial systems on multiple public and in-house benchmarks.