MOSS Transcrever e Identificar Locutores: Transcrição Precisa com Identificação de Locutores

Resumo

A Transcrição com Identificação e Carimbo Temporal do Locutor (SATS) visa transcrever o que é dito e determinar com precisão o momento de fala de cada locutor, sendo particularmente valiosa para transcrição de reuniões. Os sistemas SATS existentes raramente adotam uma formulação end-to-end e são ainda limitados por janelas de contexto restritas, memória fraca de locutores em longos intervalos e incapacidade de produzir carimbos temporais. Para superar essas limitações, apresentamos o MOSS Transcribe Diarize, um modelo de linguagem multimodal unificado que realiza conjuntamente a Transcrição com Identificação e Carimbo Temporal do Locutor em um paradigma end-to-end. Treinado com extensos dados do mundo real e equipado com uma janela de contexto de 128k para entradas de até 90 minutos, o MOSS Transcribe Diarize escala eficientemente e generaliza com robustez. Em avaliações abrangentes, supera sistemas comerciais de ponta em múltiplos benchmarks públicos e internos.

English

Speaker-Attributed, Time-Stamped Transcription (SATS) aims to transcribe what is said and to precisely determine the timing of each speaker, which is particularly valuable for meeting transcription. Existing SATS systems rarely adopt an end-to-end formulation and are further constrained by limited context windows, weak long-range speaker memory, and the inability to output timestamps. To address these limitations, we present MOSS Transcribe Diarize, a unified multimodal large language model that jointly performs Speaker-Attributed, Time-Stamped Transcription in an end-to-end paradigm. Trained on extensive real wild data and equipped with a 128k context window for up to 90-minute inputs, MOSS Transcribe Diarize scales well and generalizes robustly. Across comprehensive evaluations, it outperforms state-of-the-art commercial systems on multiple public and in-house benchmarks.