OrtSAE: Autoencoders Esparsos Ortogonais Revelam Características Atômicas
OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features
September 26, 2025
Autores: Anton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Elena Tutubalina, Ivan Oseledets
cs.AI
Resumo
Autoencoders esparsos (SAEs) são uma técnica para decomposição esparsa de ativações de redes neurais em características interpretáveis por humanos. No entanto, os SAEs atuais sofrem com absorção de características, onde características especializadas capturam instâncias de características gerais, criando lacunas de representação, e composição de características, onde características independentes se fundem em representações compostas. Neste trabalho, introduzimos o OrtSAE (Orthogonal SAE), uma nova abordagem que visa mitigar esses problemas ao impor ortogonalidade entre as características aprendidas. Ao implementar um novo procedimento de treinamento que penaliza alta similaridade de cosseno entre pares de características do SAE, o OrtSAE promove o desenvolvimento de características desembaraçadas enquanto escala linearmente com o tamanho do SAE, evitando sobrecarga computacional significativa. Treinamos o OrtSAE em diferentes modelos e camadas e o comparamos com outros métodos. Descobrimos que o OrtSAE descobre 9% mais características distintas, reduz a absorção de características (em 65%) e a composição (em 15%), melhora o desempenho na remoção de correlações espúrias (+6%) e alcança desempenho equivalente em outras tarefas subsequentes em comparação com SAEs tradicionais.
English
Sparse autoencoders (SAEs) are a technique for sparse decomposition of neural
network activations into human-interpretable features. However, current SAEs
suffer from feature absorption, where specialized features capture instances of
general features creating representation holes, and feature composition, where
independent features merge into composite representations. In this work, we
introduce Orthogonal SAE (OrtSAE), a novel approach aimed to mitigate these
issues by enforcing orthogonality between the learned features. By implementing
a new training procedure that penalizes high pairwise cosine similarity between
SAE features, OrtSAE promotes the development of disentangled features while
scaling linearly with the SAE size, avoiding significant computational
overhead. We train OrtSAE across different models and layers and compare it
with other methods. We find that OrtSAE discovers 9% more distinct features,
reduces feature absorption (by 65%) and composition (by 15%), improves
performance on spurious correlation removal (+6%), and achieves on-par
performance for other downstream tasks compared to traditional SAEs.