Détection et atténuation des hallucinations de Whisper via le pilotage des représentations cachées et les autoencodeurs parcimonieux

Résumé

Whisper, un modèle ASR largement adopté, est connu pour souffrir d'hallucinations — des transcriptions cohérentes générées pour un audio non vocal, entièrement déconnectées de l’entrée. Nous étudions si les hallucinations peuvent être détectées et atténuées via les représentations internes de Whisper. Nous extrayons les activations de l’encodeur audio et évaluons deux espaces de représentation : les activations brutes de Whisper et les latents d’un auto-encodeur sparse (SAE). Nous montrons que les deux espaces encodent des informations liées aux hallucinations linéairement séparables, avec un pouvoir discriminatif concentré dans un sous-ensemble de caractéristiques sparse et augmentant vers les couches plus profondes de l’encodeur. Nous proposons deux stratégies de guidage : le guidage dans l’espace des activations et le guidage dans l’espace latent du SAE. Le guidage basé sur le SAE réduit le taux d’hallucination de 72,63 % à 14,11 % pour Whisper small et de 86,88 % à 27,33 % pour Whisper large-v3 sur l’ensemble de test non vocal complet, avec une légère dégradation du WER sur les données vocales, se rapprochant des performances des méthodes basées sur le fine-tuning.

English

Whisper, a widely adopted ASR model, is known to suffer from hallucinations - coherent transcriptions generated for non-speech audio entirely disconnected from the input. We investigate whether hallucinations can be detected and mitigated through Whisper's internal representations. We extract audio encoder activations and evaluate two representation spaces: raw Whisper activations and Sparse AutoEncoder (SAE) latents. We show that both spaces encode linearly separable hallucination-related information, with discriminative power concentrated in a sparse feature subset and increasing toward deeper encoder layers. We propose two steering strategies: activation-space steering and SAE latent-space steering. SAE-based steering reduces hallucination rate from 72.63% to 14.11% for Whisper small and from 86.88% to 27.33% for Whisper large-v3 on the full non-speech test set, with small WER degradation on speech data, approaching the performance of fine-tuning-based methods.