ChatPaper.aiChatPaper

OrtSAE : Autoencodeurs parcimonieux orthogonaux pour la découverte de caractéristiques atomiques

OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features

September 26, 2025
papers.authors: Anton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Elena Tutubalina, Ivan Oseledets
cs.AI

papers.abstract

Les autoencodeurs parcimonieux (SAE) sont une technique de décomposition parcimonieuse des activations des réseaux de neurones en caractéristiques interprétables par l'homme. Cependant, les SAE actuels souffrent de l'absorption de caractéristiques, où des caractéristiques spécialisées captent des instances de caractéristiques générales, créant ainsi des lacunes dans la représentation, et de la composition de caractéristiques, où des caractéristiques indépendantes fusionnent en des représentations composites. Dans ce travail, nous introduisons l'Orthogonal SAE (OrtSAE), une nouvelle approche visant à atténuer ces problèmes en imposant l'orthogonalité entre les caractéristiques apprises. En mettant en œuvre une nouvelle procédure d'entraînement qui pénalise une similarité cosinus élevée entre les caractéristiques des SAE, OrtSAE favorise le développement de caractéristiques désenchevêtrées tout en évoluant linéairement avec la taille du SAE, évitant ainsi une surcharge computationnelle significative. Nous entraînons OrtSAE sur différents modèles et couches et le comparons à d'autres méthodes. Nous constatons que OrtSAE découvre 9 % de caractéristiques distinctes supplémentaires, réduit l'absorption de caractéristiques (de 65 %) et la composition de caractéristiques (de 15 %), améliore les performances sur la suppression des corrélations fallacieuses (+6 %), et atteint des performances comparables pour d'autres tâches en aval par rapport aux SAE traditionnels.
English
Sparse autoencoders (SAEs) are a technique for sparse decomposition of neural network activations into human-interpretable features. However, current SAEs suffer from feature absorption, where specialized features capture instances of general features creating representation holes, and feature composition, where independent features merge into composite representations. In this work, we introduce Orthogonal SAE (OrtSAE), a novel approach aimed to mitigate these issues by enforcing orthogonality between the learned features. By implementing a new training procedure that penalizes high pairwise cosine similarity between SAE features, OrtSAE promotes the development of disentangled features while scaling linearly with the SAE size, avoiding significant computational overhead. We train OrtSAE across different models and layers and compare it with other methods. We find that OrtSAE discovers 9% more distinct features, reduces feature absorption (by 65%) and composition (by 15%), improves performance on spurious correlation removal (+6%), and achieves on-par performance for other downstream tasks compared to traditional SAEs.
PDF122October 6, 2025