ChatPaper.aiChatPaper

OrtSAE: Autoencoders Dispersos Ortogonales Descubren Características Atómicas

OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features

September 26, 2025
Autores: Anton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Elena Tutubalina, Ivan Oseledets
cs.AI

Resumen

Los autoencoders dispersos (SAE, por sus siglas en inglés) son una técnica para la descomposición dispersa de las activaciones de redes neuronales en características interpretables por humanos. Sin embargo, los SAE actuales presentan problemas de absorción de características, donde características especializadas capturan instancias de características generales, creando huecos en la representación, y de composición de características, donde características independientes se fusionan en representaciones compuestas. En este trabajo, presentamos el SAE Ortogonal (OrtSAE), un enfoque novedoso diseñado para mitigar estos problemas mediante la imposición de ortogonalidad entre las características aprendidas. Al implementar un nuevo procedimiento de entrenamiento que penaliza la alta similitud coseno por pares entre las características del SAE, OrtSAE fomenta el desarrollo de características desenredadas mientras escala linealmente con el tamaño del SAE, evitando un sobrecosto computacional significativo. Entrenamos OrtSAE en diferentes modelos y capas y lo comparamos con otros métodos. Encontramos que OrtSAE descubre un 9% más de características distintas, reduce la absorción de características (en un 65%) y la composición (en un 15%), mejora el rendimiento en la eliminación de correlaciones espurias (+6%) y logra un rendimiento comparable en otras tareas posteriores en comparación con los SAE tradicionales.
English
Sparse autoencoders (SAEs) are a technique for sparse decomposition of neural network activations into human-interpretable features. However, current SAEs suffer from feature absorption, where specialized features capture instances of general features creating representation holes, and feature composition, where independent features merge into composite representations. In this work, we introduce Orthogonal SAE (OrtSAE), a novel approach aimed to mitigate these issues by enforcing orthogonality between the learned features. By implementing a new training procedure that penalizes high pairwise cosine similarity between SAE features, OrtSAE promotes the development of disentangled features while scaling linearly with the SAE size, avoiding significant computational overhead. We train OrtSAE across different models and layers and compare it with other methods. We find that OrtSAE discovers 9% more distinct features, reduces feature absorption (by 65%) and composition (by 15%), improves performance on spurious correlation removal (+6%), and achieves on-par performance for other downstream tasks compared to traditional SAEs.
PDF122October 6, 2025