Pisets : un système robuste de reconnaissance vocale pour les conférences et les interviews

Résumé

Ce travail présente un système de reconnaissance vocale « Pisets » destiné aux scientifiques et journalistes, reposant sur une architecture à trois composantes visant à améliorer la précision de la reconnaissance tout en minimisant les erreurs et les hallucinations associées au modèle Whisper. L'architecture comprend une reconnaissance primaire via Wav2Vec2, un filtrage des faux positifs par le biais de l’Audio Spectrogram Transformer (AST), et une reconnaissance vocale finale par Whisper. La mise en œuvre de méthodes d'apprentissage curriculaire et l'utilisation de divers corpus de parole russophone ont significativement accru l'efficacité du système. De plus, des techniques avancées de modélisation de l'incertitude ont été introduites, contribuant à des améliorations supplémentaires de la qualité de la transcription. Les approches proposées garantissent une transcription robuste de données audio longues dans diverses conditions acoustiques, comparativement à WhisperX et au modèle Whisper standard. Le code source du système « Pisets » est accessible publiquement sur GitHub : https://github.com/bond005/pisets.

English

This work presents a speech-to-text system "Pisets" for scientists and journalists which is based on a three-component architecture aimed at improving speech recognition accuracy while minimizing errors and hallucinations associated with the Whisper model. The architecture comprises primary recognition using Wav2Vec2, false positive filtering via the Audio Spectrogram Transformer (AST), and final speech recognition through Whisper. The implementation of curriculum learning methods and the utilization of diverse Russian-language speech corpora significantly enhanced the system's effectiveness. Additionally, advanced uncertainty modeling techniques were introduced, contributing to further improvements in transcription quality. The proposed approaches ensure robust transcribing of long audio data across various acoustic conditions compared to WhisperX and the usual Whisper model. The source code of "Pisets" system is publicly available at GitHub: https://github.com/bond005/pisets.

Pisets : un système robuste de reconnaissance vocale pour les conférences et les interviews

Pisets: A Robust Speech Recognition System for Lectures and Interviews

Résumé

Support