ChatPaper.aiChatPaper

Detectie en Mitigatie van Whisper Hallucinaties via Sturing van Verborgen Representaties en Sparse AutoEncoders

Whisper Hallucination Detection and Mitigation via Hidden Representation Steering and Sparse AutoEncoders

June 5, 2026
Auteurs: Georgii Aparin, Vadim Popov, Tasnima Sadekova, Assel Yermekova
cs.AI

Samenvatting

Whisper, een veelgebruikt ASR-model, staat erom bekend te lijden aan hallucinaties – samenhangende transcripties die worden gegenereerd voor niet-spraak audio en die volledig losstaan van de invoer. We onderzoeken of hallucinaties kunnen worden gedetecteerd en beperkt via de interne representaties van Whisper. We extraheren audio-encoderactivaties en evalueren twee representatieruimten: ruwe Whisper-activaties en Sparse AutoEncoder (SAE)-latenten. We tonen aan dat beide ruimten lineair scheidbare hallucinatiegerelateerde informatie coderen, waarbij het onderscheidend vermogen geconcentreerd is in een spaarse kenmerkdeelverzameling en toeneemt naarmate de encoderlagen dieper worden. We stellen twee sturingsstrategieën voor: sturing in de activatieruimte en sturing in de SAE-latente ruimte. Op SAE gebaseerde sturing vermindert het hallucinatiepercentage van 72,63% naar 14,11% voor Whisper small en van 86,88% naar 27,33% voor Whisper large-v3 op de volledige niet-spraaktestset, met een kleine WER-verslechtering op spraakdata, waarmee de prestaties van op fine-tuning gebaseerde methoden worden benaderd.
English
Whisper, a widely adopted ASR model, is known to suffer from hallucinations - coherent transcriptions generated for non-speech audio entirely disconnected from the input. We investigate whether hallucinations can be detected and mitigated through Whisper's internal representations. We extract audio encoder activations and evaluate two representation spaces: raw Whisper activations and Sparse AutoEncoder (SAE) latents. We show that both spaces encode linearly separable hallucination-related information, with discriminative power concentrated in a sparse feature subset and increasing toward deeper encoder layers. We propose two steering strategies: activation-space steering and SAE latent-space steering. SAE-based steering reduces hallucination rate from 72.63% to 14.11% for Whisper small and from 86.88% to 27.33% for Whisper large-v3 on the full non-speech test set, with small WER degradation on speech data, approaching the performance of fine-tuning-based methods.