Detecção e Mitigação de Alucinações no Whisper via Direcionamento de Representações Ocultas e Autoencoders Esparsos

Resumo

Whisper, um modelo ASR amplamente adotado, é conhecido por sofrer de alucinações — transcrições coerentes geradas para áudio sem fala que são completamente desconectadas da entrada. Investigamos se as alucinações podem ser detectadas e mitigadas por meio das representações internas do Whisper. Extraímos ativações do codificador de áudio e avaliamos dois espaços de representação: as ativações brutas do Whisper e os latentes do Autoencoder Esparso (SAE). Mostramos que ambos os espaços codificam informações relacionadas a alucinações linearmente separáveis, com poder discriminativo concentrado em um subconjunto esparso de características e aumentando em direção às camadas mais profundas do codificador. Propomos duas estratégias de direcionamento: direcionamento no espaço de ativações e direcionamento no espaço latente do SAE. O direcionamento baseado em SAE reduz a taxa de alucinação de 72,63% para 14,11% no Whisper small e de 86,88% para 27,33% no Whisper large-v3 no conjunto de teste completo sem fala, com pequena degradação do WER em dados de fala, aproximando-se do desempenho de métodos baseados em ajuste fino.

English

Whisper, a widely adopted ASR model, is known to suffer from hallucinations - coherent transcriptions generated for non-speech audio entirely disconnected from the input. We investigate whether hallucinations can be detected and mitigated through Whisper's internal representations. We extract audio encoder activations and evaluate two representation spaces: raw Whisper activations and Sparse AutoEncoder (SAE) latents. We show that both spaces encode linearly separable hallucination-related information, with discriminative power concentrated in a sparse feature subset and increasing toward deeper encoder layers. We propose two steering strategies: activation-space steering and SAE latent-space steering. SAE-based steering reduces hallucination rate from 72.63% to 14.11% for Whisper small and from 86.88% to 27.33% for Whisper large-v3 on the full non-speech test set, with small WER degradation on speech data, approaching the performance of fine-tuning-based methods.