Pisets: Ein robustes Spracherkennungssystem für Vorlesungen und Interviews
Pisets: A Robust Speech Recognition System for Lectures and Interviews
January 26, 2026
Autoren: Ivan Bondarenko, Daniil Grebenkin, Oleg Sedukhin, Mikhail Klementev, Roman Derunets, Lyudmila Budneva
cs.AI
Zusammenfassung
Diese Arbeit stellt ein Spracherkennungssystem "Pisets" für Wissenschaftler und Journalisten vor, das auf einer Drei-Komponenten-Architektur basiert, um die Genauigkeit der Spracherkennung zu verbessern und gleichzeitig Fehler und Halluzinationen im Zusammenhang mit dem Whisper-Modell zu minimieren. Die Architektur umfasst eine primäre Erkennung mittels Wav2Vec2, eine Filterung von Falsch-Positiven über den Audio Spectrogram Transformer (AST) und eine finale Spracherkennung durch Whisper. Die Implementierung von Curriculum-Learning-Methoden und die Nutzung diverser russischsprachiger Sprachkorpora steigerten die Effektivität des Systems signifikant. Zusätzlich wurden fortschrittliche Techniken zur Unsicherheitsmodellierung eingeführt, die zu weiteren Verbesserungen der Transkriptionsqualität beitrugen. Die vorgeschlagenen Ansätze gewährleisten eine robuste Transkription langer Audiodaten unter verschiedenen akustischen Bedingungen im Vergleich zu WhisperX und dem herkömmlichen Whisper-Modell. Der Quellcode des "Pisets"-Systems ist öffentlich auf GitHub verfügbar: https://github.com/bond005/pisets.
English
This work presents a speech-to-text system "Pisets" for scientists and journalists which is based on a three-component architecture aimed at improving speech recognition accuracy while minimizing errors and hallucinations associated with the Whisper model. The architecture comprises primary recognition using Wav2Vec2, false positive filtering via the Audio Spectrogram Transformer (AST), and final speech recognition through Whisper. The implementation of curriculum learning methods and the utilization of diverse Russian-language speech corpora significantly enhanced the system's effectiveness. Additionally, advanced uncertainty modeling techniques were introduced, contributing to further improvements in transcription quality. The proposed approaches ensure robust transcribing of long audio data across various acoustic conditions compared to WhisperX and the usual Whisper model. The source code of "Pisets" system is publicly available at GitHub: https://github.com/bond005/pisets.