ChatPaper.aiChatPaper

OrtSAE: Orthogonale Sparse Autoencoders Ontsluiten Atoomkenmerken

OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features

September 26, 2025
Auteurs: Anton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Elena Tutubalina, Ivan Oseledets
cs.AI

Samenvatting

Sparse autoencoders (SAEs) zijn een techniek voor de sparse decompositie van neurale netwerkactivaties in menselijk interpreteerbare kenmerken. Huidige SAEs hebben echter last van kenmerkabsorptie, waarbij gespecialiseerde kenmerken instanties van algemene kenmerken vastleggen, wat leidt tot representatiegaten, en kenmerksamenstelling, waarbij onafhankelijke kenmerken samensmelten tot samengestelde representaties. In dit werk introduceren we Orthogonale SAE (OrtSAE), een nieuwe aanpak die deze problemen probeert te verminderen door orthogonaliteit tussen de geleerde kenmerken af te dwingen. Door een nieuwe trainingsprocedure te implementeren die hoge paarsgewijze cosinusgelijkenis tussen SAE-kenmerken bestraft, bevordert OrtSAE de ontwikkeling van ontwarde kenmerken terwijl het lineair schaalt met de grootte van de SAE, zonder significante rekenkundige overhead. We trainen OrtSAE op verschillende modellen en lagen en vergelijken het met andere methoden. We ontdekken dat OrtSAE 9% meer onderscheidende kenmerken ontdekt, kenmerkabsorptie (met 65%) en samenstelling (met 15%) vermindert, de prestaties verbetert bij het verwijderen van valse correlaties (+6%), en vergelijkbare prestaties behaalt voor andere downstream taken in vergelijking met traditionele SAEs.
English
Sparse autoencoders (SAEs) are a technique for sparse decomposition of neural network activations into human-interpretable features. However, current SAEs suffer from feature absorption, where specialized features capture instances of general features creating representation holes, and feature composition, where independent features merge into composite representations. In this work, we introduce Orthogonal SAE (OrtSAE), a novel approach aimed to mitigate these issues by enforcing orthogonality between the learned features. By implementing a new training procedure that penalizes high pairwise cosine similarity between SAE features, OrtSAE promotes the development of disentangled features while scaling linearly with the SAE size, avoiding significant computational overhead. We train OrtSAE across different models and layers and compare it with other methods. We find that OrtSAE discovers 9% more distinct features, reduces feature absorption (by 65%) and composition (by 15%), improves performance on spurious correlation removal (+6%), and achieves on-par performance for other downstream tasks compared to traditional SAEs.
PDF182October 6, 2025