Whisper-Halluzinationserkennung und -minderung mittels Lenkung verborgener Repräsentationen und spärlicher Autoencoder

Zusammenfassung

Whisper, ein weit verbreitetes ASR-Modell, ist dafür bekannt, Halluzinationen zu erzeugen – kohärente Transkriptionen, die für Nicht-Sprach-Audio generiert werden und vollständig vom Eingangssignal losgelöst sind. Wir untersuchen, ob Halluzinationen anhand der internen Repräsentationen von Whisper erkannt und abgemildert werden können. Dazu extrahieren wir Aktivierungen des Audio-Encoders und bewerten zwei Repräsentationsräume: rohe Whisper-Aktivierungen und Sparse-Autoencoder (SAE)-Latente. Wir zeigen, dass beide Räume linear separierbare, halluzinationsbezogene Informationen codieren, wobei die Diskriminationskraft in einer spärlichen Merkmalsteilmenge konzentriert ist und mit tieferen Encoder-Schichten zunimmt. Wir schlagen zwei Steuerungsstrategien vor: Steuerung im Aktivierungsraum und Steuerung im SAE-latenten Raum. Die SAE-basierte Steuerung reduziert die Halluzinationsrate auf dem vollständigen Nicht-Sprach-Testdatensatz für Whisper small von 72,63 % auf 14,11 % und für Whisper large-v3 von 86,88 % auf 27,33 %, bei geringer WER-Verschlechterung auf Sprachdaten, und nähert sich damit der Leistung von Methoden auf Basis von Feinabstimmung.

English

Whisper, a widely adopted ASR model, is known to suffer from hallucinations - coherent transcriptions generated for non-speech audio entirely disconnected from the input. We investigate whether hallucinations can be detected and mitigated through Whisper's internal representations. We extract audio encoder activations and evaluate two representation spaces: raw Whisper activations and Sparse AutoEncoder (SAE) latents. We show that both spaces encode linearly separable hallucination-related information, with discriminative power concentrated in a sparse feature subset and increasing toward deeper encoder layers. We propose two steering strategies: activation-space steering and SAE latent-space steering. SAE-based steering reduces hallucination rate from 72.63% to 14.11% for Whisper small and from 86.88% to 27.33% for Whisper large-v3 on the full non-speech test set, with small WER degradation on speech data, approaching the performance of fine-tuning-based methods.