Pisets: Надежная система распознавания речи для лекций и интервью
Pisets: A Robust Speech Recognition System for Lectures and Interviews
January 26, 2026
Авторы: Ivan Bondarenko, Daniil Grebenkin, Oleg Sedukhin, Mikhail Klementev, Roman Derunets, Lyudmila Budneva
cs.AI
Аннотация
В работе представлена система преобразования речи в текст "Pisets" для учёных и журналистов, основанная на трёхкомпонентной архитектуре, направленной на повышение точности распознавания речи при минимизации ошибок и галлюцинаций, связанных с моделью Whisper. Архитектура включает первичное распознавание с помощью Wav2Vec2, фильтрацию ложноположительных срабатываний посредством Audio Spectrogram Transformer (AST) и финальное распознавание речи через Whisper. Реализация методов обучения по учебному плану (curriculum learning) и использование разнообразных корпусов русскоязычной речи существенно повысили эффективность системы. Кроме того, были внедрены передовые методы моделирования неопределённости, способствовавшие дальнейшему улучшению качества транскрипции. Предложенные подходы обеспечивают устойчивую расшифровку длинных аудиоданных в различных акустических условиях по сравнению с WhisperX и стандартной моделью Whisper. Исходный код системы "Pisets" находится в открытом доступе на GitHub: https://github.com/bond005/pisets.
English
This work presents a speech-to-text system "Pisets" for scientists and journalists which is based on a three-component architecture aimed at improving speech recognition accuracy while minimizing errors and hallucinations associated with the Whisper model. The architecture comprises primary recognition using Wav2Vec2, false positive filtering via the Audio Spectrogram Transformer (AST), and final speech recognition through Whisper. The implementation of curriculum learning methods and the utilization of diverse Russian-language speech corpora significantly enhanced the system's effectiveness. Additionally, advanced uncertainty modeling techniques were introduced, contributing to further improvements in transcription quality. The proposed approaches ensure robust transcribing of long audio data across various acoustic conditions compared to WhisperX and the usual Whisper model. The source code of "Pisets" system is publicly available at GitHub: https://github.com/bond005/pisets.