AudioSAE: Op weg naar het begrijpen van audioverwerkingsmodellen met Sparse AutoEncoders

Samenvatting

Sparse Autoencoders (SAE's) zijn krachtige hulpmiddelen voor het interpreteren van neurale representaties, maar hun toepassing in audio blijft onderbelicht. Wij trainen SAE's op alle encoderlagen van Whisper en HuBERT, voorzien van een uitgebreide evaluatie van hun stabiliteit en interpreteerbaarheid, en tonen hun praktische nut aan. Meer dan 50% van de features blijft consistent bij verschillende initialisaties (random seeds), en de reconstructiekwaliteit blijft behouden. SAE-features vangen zowel algemene akoestische en semantische informatie als specifieke gebeurtenissen, zoals omgevingsgeluiden en paralinguïstische geluiden (bijv. gelach, gefluister), en ontwarren deze effectief: voor het wissen van een concept is verwijdering van slechts 19-27% van de features nodig. Feature-sturing reduceert de valse spraakdetecties van Whisper met 70% met een verwaarloosbare toename van de WER, wat de toepasbaarheid in de praktijk aantoont. Ten slotte vinden we dat SAE-features correleren met menselijke EEG-activiteit tijdens spraakperceptie, wat wijst op een afstemming met de menselijke neurale verwerking. De code en checkpoints zijn beschikbaar op https://github.com/audiosae/audiosae_demo.

English

Sparse Autoencoders (SAEs) are powerful tools for interpreting neural representations, yet their use in audio remains underexplored. We train SAEs across all encoder layers of Whisper and HuBERT, provide an extensive evaluation of their stability, interpretability, and show their practical utility. Over 50% of the features remain consistent across random seeds, and reconstruction quality is preserved. SAE features capture general acoustic and semantic information as well as specific events, including environmental noises and paralinguistic sounds (e.g. laughter, whispering) and disentangle them effectively, requiring removal of only 19-27% of features to erase a concept. Feature steering reduces Whisper's false speech detections by 70% with negligible WER increase, demonstrating real-world applicability. Finally, we find SAE features correlated with human EEG activity during speech perception, indicating alignment with human neural processing. The code and checkpoints are available at https://github.com/audiosae/audiosae_demo.

AudioSAE: Op weg naar het begrijpen van audioverwerkingsmodellen met Sparse AutoEncoders

AudioSAE: Towards Understanding of Audio-Processing Models with Sparse AutoEncoders

Samenvatting

Support