Обнаружение и смягчение галлюцинаций в Whisper с помощью управления скрытыми представлениями и разреженных автоэнкодеров

Аннотация

Whisper — широко используемая модель автоматического распознавания речи (ASR) — известна подверженностью галлюцинациям: порождению связных транскрипций для неречевого аудиосигнала, полностью не связанных с входными данными. Мы исследуем возможность обнаружения и смягчения галлюцинаций с помощью внутренних представлений Whisper. Мы извлекаем активации аудиоэнкодера и оцениваем два пространства представлений: необработанные активации Whisper и латентные признаки разреженного автоэнкодера (SAE). Мы показываем, что оба пространства кодируют линейно разделимую информацию, связанную с галлюцинациями, причем дискриминативная способность сосредоточена в разреженном подмножестве признаков и возрастает по мере углубления в слои энкодера. Мы предлагаем две стратегии управления: управление в пространстве активаций и управление в пространстве латентных признаков SAE. Управление на основе SAE снижает частоту галлюцинаций с 72,63% до 14,11% для Whisper small и с 86,88% до 27,33% для Whisper large-v3 на полном наборе неречевых тестовых данных, демонстрируя незначительное ухудшение показателя WER на речевых данных, приближаясь к производительности методов, основанных на тонкой настройке.

English

Whisper, a widely adopted ASR model, is known to suffer from hallucinations - coherent transcriptions generated for non-speech audio entirely disconnected from the input. We investigate whether hallucinations can be detected and mitigated through Whisper's internal representations. We extract audio encoder activations and evaluate two representation spaces: raw Whisper activations and Sparse AutoEncoder (SAE) latents. We show that both spaces encode linearly separable hallucination-related information, with discriminative power concentrated in a sparse feature subset and increasing toward deeper encoder layers. We propose two steering strategies: activation-space steering and SAE latent-space steering. SAE-based steering reduces hallucination rate from 72.63% to 14.11% for Whisper small and from 86.88% to 27.33% for Whisper large-v3 on the full non-speech test set, with small WER degradation on speech data, approaching the performance of fine-tuning-based methods.