OrtSAE: Autoencoder Sparse Ortogonali Rivelano Caratteristiche Atomiche
OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features
September 26, 2025
Autori: Anton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Elena Tutubalina, Ivan Oseledets
cs.AI
Abstract
Gli autoencoder sparsi (SAE) sono una tecnica per la decomposizione sparsa delle attivazioni delle reti neurali in feature interpretabili dall'uomo. Tuttavia, gli attuali SAE soffrono di assorbimento delle feature, dove feature specializzate catturano istanze di feature generali creando lacune nella rappresentazione, e di composizione delle feature, dove feature indipendenti si fondono in rappresentazioni composite. In questo lavoro, introduciamo l'OrtSAE (Orthogonal SAE), un nuovo approccio mirato a mitigare questi problemi imponendo l'ortogonalità tra le feature apprese. Implementando una nuova procedura di addestramento che penalizza un'elevata similarità coseno a coppie tra le feature SAE, l'OrtSAE promuove lo sviluppo di feature disaccoppiate, scalando linearmente con la dimensione del SAE ed evitando un significativo sovraccarico computazionale. Addestriamo l'OrtSAE su diversi modelli e livelli e lo confrontiamo con altri metodi. Rileviamo che l'OrtSAE scopre il 9% in più di feature distinte, riduce l'assorbimento delle feature (del 65%) e la composizione (del 15%), migliora le prestazioni nella rimozione di correlazioni spurie (+6%) e ottiene prestazioni comparabili per altre attività downstream rispetto ai SAE tradizionali.
English
Sparse autoencoders (SAEs) are a technique for sparse decomposition of neural
network activations into human-interpretable features. However, current SAEs
suffer from feature absorption, where specialized features capture instances of
general features creating representation holes, and feature composition, where
independent features merge into composite representations. In this work, we
introduce Orthogonal SAE (OrtSAE), a novel approach aimed to mitigate these
issues by enforcing orthogonality between the learned features. By implementing
a new training procedure that penalizes high pairwise cosine similarity between
SAE features, OrtSAE promotes the development of disentangled features while
scaling linearly with the SAE size, avoiding significant computational
overhead. We train OrtSAE across different models and layers and compare it
with other methods. We find that OrtSAE discovers 9% more distinct features,
reduces feature absorption (by 65%) and composition (by 15%), improves
performance on spurious correlation removal (+6%), and achieves on-par
performance for other downstream tasks compared to traditional SAEs.