OrtSAE: Autoencoder Sparse Ortogonali Rivelano Caratteristiche Atomiche

Abstract

Gli autoencoder sparsi (SAE) sono una tecnica per la decomposizione sparsa delle attivazioni delle reti neurali in feature interpretabili dall'uomo. Tuttavia, gli attuali SAE soffrono di assorbimento delle feature, dove feature specializzate catturano istanze di feature generali creando lacune nella rappresentazione, e di composizione delle feature, dove feature indipendenti si fondono in rappresentazioni composite. In questo lavoro, introduciamo l'OrtSAE (Orthogonal SAE), un nuovo approccio mirato a mitigare questi problemi imponendo l'ortogonalità tra le feature apprese. Implementando una nuova procedura di addestramento che penalizza un'elevata similarità coseno a coppie tra le feature SAE, l'OrtSAE promuove lo sviluppo di feature disaccoppiate, scalando linearmente con la dimensione del SAE ed evitando un significativo sovraccarico computazionale. Addestriamo l'OrtSAE su diversi modelli e livelli e lo confrontiamo con altri metodi. Rileviamo che l'OrtSAE scopre il 9% in più di feature distinte, riduce l'assorbimento delle feature (del 65%) e la composizione (del 15%), migliora le prestazioni nella rimozione di correlazioni spurie (+6%) e ottiene prestazioni comparabili per altre attività downstream rispetto ai SAE tradizionali.

English

Sparse autoencoders (SAEs) are a technique for sparse decomposition of neural network activations into human-interpretable features. However, current SAEs suffer from feature absorption, where specialized features capture instances of general features creating representation holes, and feature composition, where independent features merge into composite representations. In this work, we introduce Orthogonal SAE (OrtSAE), a novel approach aimed to mitigate these issues by enforcing orthogonality between the learned features. By implementing a new training procedure that penalizes high pairwise cosine similarity between SAE features, OrtSAE promotes the development of disentangled features while scaling linearly with the SAE size, avoiding significant computational overhead. We train OrtSAE across different models and layers and compare it with other methods. We find that OrtSAE discovers 9% more distinct features, reduces feature absorption (by 65%) and composition (by 15%), improves performance on spurious correlation removal (+6%), and achieves on-par performance for other downstream tasks compared to traditional SAEs.

OrtSAE: Autoencoder Sparse Ortogonali Rivelano Caratteristiche Atomiche

OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features

Abstract

Support