AudioSAE: Verso la comprensione dei modelli di elaborazione audio con Autoencoder Sparse

Abstract

Gli Autoencoder Sparse (SAE) sono strumenti potenti per interpretare le rappresentazioni neurali, ma il loro utilizzo nell'audio rimane poco esplorato. Addestriamo SAE su tutti i livelli encoder di Whisper e HuBERT, forniamo una valutazione approfondita della loro stabilità e interpretabilità, e ne dimostriamo l'utilità pratica. Oltre il 50% delle feature rimane coerente tra diversi seed casuali, preservando la qualità della ricostruzione. Le feature SAE catturano informazioni acustiche e semantiche generali, nonché eventi specifici, inclusi rumori ambientali e suoni paralinguistici (ad esempio risate, sussurri), e li separano efficacemente, richiedendo la rimozione di solo il 19-27% delle feature per cancellare un concetto. Lo steering delle feature riduce del 70% le false rilevazioni di parlato di Whisper con un aumento trascurabile del WER, dimostrando un'applicabilità nel mondo reale. Infine, troviamo che le feature SAE sono correlate con l'attività EEG umana durante la percezione del parlato, indicando un allineamento con l'elaborazione neurale umana. Il codice e i checkpoint sono disponibili all'indirizzo https://github.com/audiosae/audiosae_demo.

English

Sparse Autoencoders (SAEs) are powerful tools for interpreting neural representations, yet their use in audio remains underexplored. We train SAEs across all encoder layers of Whisper and HuBERT, provide an extensive evaluation of their stability, interpretability, and show their practical utility. Over 50% of the features remain consistent across random seeds, and reconstruction quality is preserved. SAE features capture general acoustic and semantic information as well as specific events, including environmental noises and paralinguistic sounds (e.g. laughter, whispering) and disentangle them effectively, requiring removal of only 19-27% of features to erase a concept. Feature steering reduces Whisper's false speech detections by 70% with negligible WER increase, demonstrating real-world applicability. Finally, we find SAE features correlated with human EEG activity during speech perception, indicating alignment with human neural processing. The code and checkpoints are available at https://github.com/audiosae/audiosae_demo.

AudioSAE: Verso la comprensione dei modelli di elaborazione audio con Autoencoder Sparse

AudioSAE: Towards Understanding of Audio-Processing Models with Sparse AutoEncoders

Abstract

Support