AudioSAE: к пониманию моделей обработки аудио с помощью разреженных автоэнкодеров

Аннотация

Разреженные автоэнкодеры (SAE) являются мощным инструментом для интерпретации нейронных представлений, однако их применение в аудиообласти остается недостаточно изученным. Мы обучаем SAE для всех энкодерных слоев моделей Whisper и HuBERT, проводим всестороннюю оценку их стабильности и интерпретируемости и демонстрируем их практическую полезность. Более 50% признаков остаются consistent при различных начальных значениях генератора случайных чисел, а качество реконструкции сохраняется. Признаки SAE фиксируют как общую акустическую и семантическую информацию, так и конкретные события, включая фоновые шумы и паралингвистические звуки (например, смех, шепот), и эффективно их разделяют: для удаления концепта требуется исключение лишь 19-27% признаков. Управление признаками позволяет снизить количество ложных детекций речи в Whisper на 70% с незначительным ростом WER, что демонстрирует применимость метода в реальных условиях. Наконец, мы обнаружили корреляцию признаков SAE с активностью ЭЭГ человека во время восприятия речи, что указывает на их соответствие нейронной обработке в человеческом мозге. Код и контрольные точки доступны по адресу https://github.com/audiosae/audiosae_demo.

English

Sparse Autoencoders (SAEs) are powerful tools for interpreting neural representations, yet their use in audio remains underexplored. We train SAEs across all encoder layers of Whisper and HuBERT, provide an extensive evaluation of their stability, interpretability, and show their practical utility. Over 50% of the features remain consistent across random seeds, and reconstruction quality is preserved. SAE features capture general acoustic and semantic information as well as specific events, including environmental noises and paralinguistic sounds (e.g. laughter, whispering) and disentangle them effectively, requiring removal of only 19-27% of features to erase a concept. Feature steering reduces Whisper's false speech detections by 70% with negligible WER increase, demonstrating real-world applicability. Finally, we find SAE features correlated with human EEG activity during speech perception, indicating alignment with human neural processing. The code and checkpoints are available at https://github.com/audiosae/audiosae_demo.

AudioSAE: к пониманию моделей обработки аудио с помощью разреженных автоэнкодеров

AudioSAE: Towards Understanding of Audio-Processing Models with Sparse AutoEncoders

Аннотация

Support