Pisets: Um Sistema Robusto de Reconhecimento de Fala para Palestras e Entrevistas

Resumo

Este trabalho apresenta um sistema de conversão de fala em texto, denominado "Pisets", desenvolvido para cientistas e jornalistas. O sistema é baseado numa arquitetura de três componentes concebida para melhorar a precisão do reconhecimento de fala, minimizando ao mesmo tempo os erros e as alucinações associadas ao modelo Whisper. A arquitetura compreende o reconhecimento primário através do Wav2Vec2, a filtragem de falsos positivos via *Audio Spectrogram Transformer* (AST) e o reconhecimento de fala final realizado pelo Whisper. A implementação de métodos de *curriculum learning* e a utilização de diversos corpora de fala em língua russa aumentaram significativamente a eficácia do sistema. Adicionalmente, foram introduzidas técnicas avançadas de modelação de incerteza, que contribuíram para melhorias adicionais na qualidade da transcrição. As abordagens propostas garantem uma transcrição robusta de dados de áudio longos em diversas condições acústicas, em comparação com o WhisperX e o modelo Whisper padrão. O código-fonte do sistema "Pisets" está publicamente disponível no GitHub: https://github.com/bond005/pisets.

English

This work presents a speech-to-text system "Pisets" for scientists and journalists which is based on a three-component architecture aimed at improving speech recognition accuracy while minimizing errors and hallucinations associated with the Whisper model. The architecture comprises primary recognition using Wav2Vec2, false positive filtering via the Audio Spectrogram Transformer (AST), and final speech recognition through Whisper. The implementation of curriculum learning methods and the utilization of diverse Russian-language speech corpora significantly enhanced the system's effectiveness. Additionally, advanced uncertainty modeling techniques were introduced, contributing to further improvements in transcription quality. The proposed approaches ensure robust transcribing of long audio data across various acoustic conditions compared to WhisperX and the usual Whisper model. The source code of "Pisets" system is publicly available at GitHub: https://github.com/bond005/pisets.