ChatPaper.aiChatPaper

AudioSAE: Rumo à Compreensão de Modelos de Processamento de Áudio com Autoencoders Esparsos

AudioSAE: Towards Understanding of Audio-Processing Models with Sparse AutoEncoders

February 4, 2026
Autores: Georgii Aparin, Tasnima Sadekova, Alexey Rukhovich, Assel Yermekova, Laida Kushnareva, Vadim Popov, Kristian Kuznetsov, Irina Piontkovskaya
cs.AI

Resumo

Os Autoencoders Esparsos (SAEs) são ferramentas poderosas para interpretar representações neurais, mas o seu uso em áudio permanece pouco explorado. Treinamos SAEs em todas as camadas do codificador do Whisper e do HuBERT, fornecemos uma avaliação extensiva da sua estabilidade e interpretabilidade, e demonstramos a sua utilidade prática. Mais de 50% das características permanecem consistentes entre diferentes inicializações aleatórias, e a qualidade da reconstrução é preservada. As características dos SAEs capturam informações acústicas e semânticas gerais, bem como eventos específicos, incluindo ruídos ambientais e sons paralinguísticos (por exemplo, risos, sussurros), e separam-nos eficazmente, sendo necessária a remoção de apenas 19-27% das características para apagar um conceito. A orientação de características reduz as deteções falsas de fala do Whisper em 70% com um aumento negligenciável da Taxa de Erro de Palavras (WER), demonstrando aplicabilidade no mundo real. Finalmente, descobrimos que as características dos SAEs estão correlacionadas com a atividade de EEG humano durante a perceção de fala, indicando um alinhamento com o processamento neural humano. O código e os *checkpoints* estão disponíveis em https://github.com/audiosae/audiosae_demo.
English
Sparse Autoencoders (SAEs) are powerful tools for interpreting neural representations, yet their use in audio remains underexplored. We train SAEs across all encoder layers of Whisper and HuBERT, provide an extensive evaluation of their stability, interpretability, and show their practical utility. Over 50% of the features remain consistent across random seeds, and reconstruction quality is preserved. SAE features capture general acoustic and semantic information as well as specific events, including environmental noises and paralinguistic sounds (e.g. laughter, whispering) and disentangle them effectively, requiring removal of only 19-27% of features to erase a concept. Feature steering reduces Whisper's false speech detections by 70% with negligible WER increase, demonstrating real-world applicability. Finally, we find SAE features correlated with human EEG activity during speech perception, indicating alignment with human neural processing. The code and checkpoints are available at https://github.com/audiosae/audiosae_demo.
PDF623March 31, 2026