ChatPaper.aiChatPaper

OrtSAE: Ортогональные разреженные автоэнкодеры для выявления атомарных признаков

OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features

September 26, 2025
Авторы: Anton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Elena Tutubalina, Ivan Oseledets
cs.AI

Аннотация

Разреженные автоэнкодеры (SAE) — это метод разреженного декомпозирования активаций нейронных сетей на интерпретируемые человеком признаки. Однако современные SAE страдают от проблем поглощения признаков, когда специализированные признаки захватывают экземпляры общих признаков, создавая пробелы в представлении, и композиции признаков, когда независимые признаки объединяются в составные представления. В данной работе мы представляем Ортогональный SAE (OrtSAE), новый подход, направленный на смягчение этих проблем за счет обеспечения ортогональности между изучаемыми признаками. Реализуя новый процесс обучения, который штрафует высокое попарное косинусное сходство между признаками SAE, OrtSAE способствует развитию разделенных признаков, при этом масштабируясь линейно с размером SAE, избегая значительных вычислительных затрат. Мы обучаем OrtSAE на различных моделях и слоях и сравниваем его с другими методами. Мы обнаруживаем, что OrtSAE обнаруживает на 9% больше уникальных признаков, снижает поглощение признаков (на 65%) и их композицию (на 15%), улучшает производительность на задачах удаления ложных корреляций (+6%) и демонстрирует сопоставимую производительность на других задачах по сравнению с традиционными SAE.
English
Sparse autoencoders (SAEs) are a technique for sparse decomposition of neural network activations into human-interpretable features. However, current SAEs suffer from feature absorption, where specialized features capture instances of general features creating representation holes, and feature composition, where independent features merge into composite representations. In this work, we introduce Orthogonal SAE (OrtSAE), a novel approach aimed to mitigate these issues by enforcing orthogonality between the learned features. By implementing a new training procedure that penalizes high pairwise cosine similarity between SAE features, OrtSAE promotes the development of disentangled features while scaling linearly with the SAE size, avoiding significant computational overhead. We train OrtSAE across different models and layers and compare it with other methods. We find that OrtSAE discovers 9% more distinct features, reduces feature absorption (by 65%) and composition (by 15%), improves performance on spurious correlation removal (+6%), and achieves on-par performance for other downstream tasks compared to traditional SAEs.
PDF122October 6, 2025