OrtSAE: Orthogonale Sparse Autoencoders Ontsluiten Atoomkenmerken
OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features
September 26, 2025
Auteurs: Anton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Elena Tutubalina, Ivan Oseledets
cs.AI
Samenvatting
Sparse autoencoders (SAEs) zijn een techniek voor de sparse decompositie van neurale netwerkactivaties in menselijk interpreteerbare kenmerken. Huidige SAEs hebben echter last van kenmerkabsorptie, waarbij gespecialiseerde kenmerken instanties van algemene kenmerken vastleggen, wat leidt tot representatiegaten, en kenmerksamenstelling, waarbij onafhankelijke kenmerken samensmelten tot samengestelde representaties. In dit werk introduceren we Orthogonale SAE (OrtSAE), een nieuwe aanpak die deze problemen probeert te verminderen door orthogonaliteit tussen de geleerde kenmerken af te dwingen. Door een nieuwe trainingsprocedure te implementeren die hoge paarsgewijze cosinusgelijkenis tussen SAE-kenmerken bestraft, bevordert OrtSAE de ontwikkeling van ontwarde kenmerken terwijl het lineair schaalt met de grootte van de SAE, zonder significante rekenkundige overhead. We trainen OrtSAE op verschillende modellen en lagen en vergelijken het met andere methoden. We ontdekken dat OrtSAE 9% meer onderscheidende kenmerken ontdekt, kenmerkabsorptie (met 65%) en samenstelling (met 15%) vermindert, de prestaties verbetert bij het verwijderen van valse correlaties (+6%), en vergelijkbare prestaties behaalt voor andere downstream taken in vergelijking met traditionele SAEs.
English
Sparse autoencoders (SAEs) are a technique for sparse decomposition of neural
network activations into human-interpretable features. However, current SAEs
suffer from feature absorption, where specialized features capture instances of
general features creating representation holes, and feature composition, where
independent features merge into composite representations. In this work, we
introduce Orthogonal SAE (OrtSAE), a novel approach aimed to mitigate these
issues by enforcing orthogonality between the learned features. By implementing
a new training procedure that penalizes high pairwise cosine similarity between
SAE features, OrtSAE promotes the development of disentangled features while
scaling linearly with the SAE size, avoiding significant computational
overhead. We train OrtSAE across different models and layers and compare it
with other methods. We find that OrtSAE discovers 9% more distinct features,
reduces feature absorption (by 65%) and composition (by 15%), improves
performance on spurious correlation removal (+6%), and achieves on-par
performance for other downstream tasks compared to traditional SAEs.