Pisets: Un sistema robusto de reconocimiento del habla para conferencias y entrevistas.

Resumen

Este trabajo presenta un sistema de conversión de voz a texto denominado "Pisets", dirigido a científicos y periodistas, que se basa en una arquitectura de tres componentes diseñada para mejorar la precisión del reconocimiento del habla y minimizar los errores y las alucinaciones asociadas al modelo Whisper. La arquitectura consta de un reconocimiento primario mediante Wav2Vec2, un filtrado de falsos positivos a través del Transformer de Espectrograma de Audio (AST) y un reconocimiento final del habla mediante Whisper. La implementación de métodos de aprendizaje curricular y la utilización de diversos corpus de habla en ruso mejoraron significativamente la eficacia del sistema. Además, se introdujeron técnicas avanzadas de modelado de incertidumbre, lo que contribuyó a nuevas mejoras en la calidad de la transcripción. Los enfoques propuestos garantizan una transcripción robusta de datos de audio largos en diversas condiciones acústicas en comparación con WhisperX y el modelo Whisper convencional. El código fuente del sistema "Pisets" está disponible públicamente en GitHub: https://github.com/bond005/pisets.

English

This work presents a speech-to-text system "Pisets" for scientists and journalists which is based on a three-component architecture aimed at improving speech recognition accuracy while minimizing errors and hallucinations associated with the Whisper model. The architecture comprises primary recognition using Wav2Vec2, false positive filtering via the Audio Spectrogram Transformer (AST), and final speech recognition through Whisper. The implementation of curriculum learning methods and the utilization of diverse Russian-language speech corpora significantly enhanced the system's effectiveness. Additionally, advanced uncertainty modeling techniques were introduced, contributing to further improvements in transcription quality. The proposed approaches ensure robust transcribing of long audio data across various acoustic conditions compared to WhisperX and the usual Whisper model. The source code of "Pisets" system is publicly available at GitHub: https://github.com/bond005/pisets.