OrtSAE: Orthogonale Sparse Autoencoder entschlüsseln atomare Merkmale
OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features
September 26, 2025
papers.authors: Anton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Elena Tutubalina, Ivan Oseledets
cs.AI
papers.abstract
Sparse Autoencoder (SAEs) sind eine Technik zur sparsen Zerlegung von neuronalen Netzwerkaktivierungen in menscheninterpretierbare Merkmale. Allerdings leiden aktuelle SAEs unter Merkmalsabsorption, bei der spezialisierte Merkmale Instanzen allgemeiner Merkmale erfassen und dadurch Repräsentationslücken entstehen, sowie unter Merkmalskomposition, bei der unabhängige Merkmale zu zusammengesetzten Repräsentationen verschmelzen. In dieser Arbeit stellen wir Orthogonal SAE (OrtSAE) vor, einen neuartigen Ansatz, der darauf abzielt, diese Probleme durch die Durchsetzung von Orthogonalität zwischen den gelernten Merkmalen zu mildern. Durch die Implementierung eines neuen Trainingsverfahrens, das hohe paarweise Kosinusähnlichkeit zwischen SAE-Merkmalen bestraft, fördert OrtSAE die Entwicklung von entflochtenen Merkmalen, während es linear mit der Größe des SAE skaliert und somit signifikanten Rechenaufwand vermeidet. Wir trainieren OrtSAE über verschiedene Modelle und Schichten hinweg und vergleichen es mit anderen Methoden. Dabei stellen wir fest, dass OrtSAE 9 % mehr eindeutige Merkmale entdeckt, die Merkmalsabsorption (um 65 %) und -komposition (um 15 %) reduziert, die Leistung bei der Entfernung von Scheinkorrelationen verbessert (+6 %) und im Vergleich zu traditionellen SAEs eine vergleichbare Leistung bei anderen nachgelagerten Aufgaben erzielt.
English
Sparse autoencoders (SAEs) are a technique for sparse decomposition of neural
network activations into human-interpretable features. However, current SAEs
suffer from feature absorption, where specialized features capture instances of
general features creating representation holes, and feature composition, where
independent features merge into composite representations. In this work, we
introduce Orthogonal SAE (OrtSAE), a novel approach aimed to mitigate these
issues by enforcing orthogonality between the learned features. By implementing
a new training procedure that penalizes high pairwise cosine similarity between
SAE features, OrtSAE promotes the development of disentangled features while
scaling linearly with the SAE size, avoiding significant computational
overhead. We train OrtSAE across different models and layers and compare it
with other methods. We find that OrtSAE discovers 9% more distinct features,
reduces feature absorption (by 65%) and composition (by 15%), improves
performance on spurious correlation removal (+6%), and achieves on-par
performance for other downstream tasks compared to traditional SAEs.