ChatPaper.aiChatPaper

Pseudo2Real: Арифметика задач для коррекции псевдо-меток в автоматическом распознавании речи

Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition

October 9, 2025
Авторы: Yi-Cheng Lin, Yu-Hsuan Li Liang, Hsuan Su, Tzu-Quan Lin, Shang-Tse Chen, Yun-Nung Chen, Hung-yi Lee
cs.AI

Аннотация

Устойчивость систем автоматического распознавания речи (ASR) к сдвигу домена крайне важна, поскольку реальные системы сталкиваются с неизвестными акцентами и доменами при ограниченном количестве размеченных данных. Хотя псевдоразметка предлагает практическое решение, она часто вносит систематические ошибки, специфичные для акцентов, которые не устраняются фильтрацией. Мы задаемся вопросом: как можно исправить эти повторяющиеся смещения без наличия эталонных данных целевого домена? Мы предлагаем простую коррекцию в пространстве параметров: в исходном домене, содержащем как реальные, так и псевдоразмеченные данные, две модели ASR дообучаются из одной и той же начальной точки, одна на эталонных метках, а другая на псевдо-метках, и разница их весов формирует вектор коррекции, который фиксирует смещения псевдоразметки. Применение этого вектора к модели с псевдоразметкой в целевом домене улучшает распознавание, достигая относительного снижения частоты ошибок по словам (WER) до 35% на наборе данных AfriSpeech-200 для десяти африканских акцентов с использованием модели Whisper tiny.
English
Robust ASR under domain shift is crucial because real-world systems encounter unseen accents and domains with limited labeled data. Although pseudo-labeling offers a practical workaround, it often introduces systematic, accent-specific errors that filtering fails to fix. We ask: How can we correct these recurring biases without target ground truth? We propose a simple parameter-space correction: in a source domain containing both real and pseudo-labeled data, two ASR models are fine-tuned from the same initialization, one on ground-truth labels and the other on pseudo-labels, and their weight difference forms a correction vector that captures pseudo-label biases. When applied to a pseudo-labeled target model, this vector enhances recognition, achieving up to a 35% relative Word Error Rate (WER) reduction on AfriSpeech-200 across ten African accents with the Whisper tiny model.
PDF62October 13, 2025