OrtSAE: Autoencoders Esparsos Ortogonais Revelam Características Atômicas

Resumo

Autoencoders esparsos (SAEs) são uma técnica para decomposição esparsa de ativações de redes neurais em características interpretáveis por humanos. No entanto, os SAEs atuais sofrem com absorção de características, onde características especializadas capturam instâncias de características gerais, criando lacunas de representação, e composição de características, onde características independentes se fundem em representações compostas. Neste trabalho, introduzimos o OrtSAE (Orthogonal SAE), uma nova abordagem que visa mitigar esses problemas ao impor ortogonalidade entre as características aprendidas. Ao implementar um novo procedimento de treinamento que penaliza alta similaridade de cosseno entre pares de características do SAE, o OrtSAE promove o desenvolvimento de características desembaraçadas enquanto escala linearmente com o tamanho do SAE, evitando sobrecarga computacional significativa. Treinamos o OrtSAE em diferentes modelos e camadas e o comparamos com outros métodos. Descobrimos que o OrtSAE descobre 9% mais características distintas, reduz a absorção de características (em 65%) e a composição (em 15%), melhora o desempenho na remoção de correlações espúrias (+6%) e alcança desempenho equivalente em outras tarefas subsequentes em comparação com SAEs tradicionais.

English

Sparse autoencoders (SAEs) are a technique for sparse decomposition of neural network activations into human-interpretable features. However, current SAEs suffer from feature absorption, where specialized features capture instances of general features creating representation holes, and feature composition, where independent features merge into composite representations. In this work, we introduce Orthogonal SAE (OrtSAE), a novel approach aimed to mitigate these issues by enforcing orthogonality between the learned features. By implementing a new training procedure that penalizes high pairwise cosine similarity between SAE features, OrtSAE promotes the development of disentangled features while scaling linearly with the SAE size, avoiding significant computational overhead. We train OrtSAE across different models and layers and compare it with other methods. We find that OrtSAE discovers 9% more distinct features, reduces feature absorption (by 65%) and composition (by 15%), improves performance on spurious correlation removal (+6%), and achieves on-par performance for other downstream tasks compared to traditional SAEs.

OrtSAE: Autoencoders Esparsos Ortogonais Revelam Características Atômicas

OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features

Resumo

Support