Pisets: un sistema robusto di riconoscimento vocale per lezioni e interviste

Abstract

Questo lavoro presenta un sistema di riconoscimento vocale "Pisets", destinato a scienziati e giornalisti, basato su un'architettura a tre componenti finalizzata a migliorare l'accuratezza della trascrizione riducendo al minimo gli errori e le allucinazioni associate al modello Whisper. L'architettura comprende una riconoscimento primario tramite Wav2Vec2, un filtraggio dei falsi positivi tramite l'Audio Spectrogram Transformer (AST) e una riconoscimento vocale finale attraverso Whisper. L'implementazione di metodi di curriculum learning e l'utilizzo di svariati corpora vocali in lingua russa hanno migliorato significativamente l'efficacia del sistema. Inoltre, sono state introdotte tecniche avanzate di modellazione dell'incertezza, che hanno contribuito a ulteriori miglioramenti nella qualità della trascrizione. Gli approcci proposti garantiscono una trascrizione robusta di audio di lunga durata in varie condizioni acustiche, rispetto a WhisperX e al normale modello Whisper. Il codice sorgente del sistema "Pisets" è pubblicamente disponibile su GitHub: https://github.com/bond005/pisets.

English

This work presents a speech-to-text system "Pisets" for scientists and journalists which is based on a three-component architecture aimed at improving speech recognition accuracy while minimizing errors and hallucinations associated with the Whisper model. The architecture comprises primary recognition using Wav2Vec2, false positive filtering via the Audio Spectrogram Transformer (AST), and final speech recognition through Whisper. The implementation of curriculum learning methods and the utilization of diverse Russian-language speech corpora significantly enhanced the system's effectiveness. Additionally, advanced uncertainty modeling techniques were introduced, contributing to further improvements in transcription quality. The proposed approaches ensure robust transcribing of long audio data across various acoustic conditions compared to WhisperX and the usual Whisper model. The source code of "Pisets" system is publicly available at GitHub: https://github.com/bond005/pisets.

Pisets: un sistema robusto di riconoscimento vocale per lezioni e interviste

Pisets: A Robust Speech Recognition System for Lectures and Interviews

Abstract

Support