ChatPaper.aiChatPaper

Pisets: Een Robuust Spraakherkenningssysteem voor Colleges en Interviews

Pisets: A Robust Speech Recognition System for Lectures and Interviews

January 26, 2026
Auteurs: Ivan Bondarenko, Daniil Grebenkin, Oleg Sedukhin, Mikhail Klementev, Roman Derunets, Lyudmila Budneva
cs.AI

Samenvatting

Dit werk presenteert "Pisets", een spraak-naar-tekst systeem voor wetenschappers en journalisten, dat gebaseerd is op een driedelige architectuur. Deze architectuur is gericht op het verbeteren van de nauwkeurigheid van spraakherkenning en het minimaliseren van fouten en hallucinaties die geassocieerd worden met het Whisper-model. De architectuur omvat primaire herkenning met Wav2Vec2, filtering van fout-positieven via de Audio Spectrogram Transformer (AST), en uiteindelijke spraakherkenning door Whisper. De implementatie van curriculum learning-methoden en het gebruik van diverse Russischtalige spraakcorpora hebben de effectiviteit van het systeem aanzienlijk verbeterd. Daarnaast werden geavanceerde technieken voor onzekerheidsmodellering geïntroduceerd, wat verder bijdroeg aan verbeteringen in de transcriptiekwaliteit. De voorgestelde aanpakken zorgen voor een robuuste transcriptie van lange audiogegevens onder diverse akoestische omstandigheden in vergelijking met WhisperX en het standaard Whisper-model. De broncode van het "Pisets"-systeem is openbaar beschikbaar op GitHub: https://github.com/bond005/pisets.
English
This work presents a speech-to-text system "Pisets" for scientists and journalists which is based on a three-component architecture aimed at improving speech recognition accuracy while minimizing errors and hallucinations associated with the Whisper model. The architecture comprises primary recognition using Wav2Vec2, false positive filtering via the Audio Spectrogram Transformer (AST), and final speech recognition through Whisper. The implementation of curriculum learning methods and the utilization of diverse Russian-language speech corpora significantly enhanced the system's effectiveness. Additionally, advanced uncertainty modeling techniques were introduced, contributing to further improvements in transcription quality. The proposed approaches ensure robust transcribing of long audio data across various acoustic conditions compared to WhisperX and the usual Whisper model. The source code of "Pisets" system is publicly available at GitHub: https://github.com/bond005/pisets.
PDF343March 16, 2026