ChatPaper.aiChatPaper

FaithfulSAE: к извлечению достоверных признаков с помощью разреженных автокодировщиков без зависимостей от внешних наборов данных

FaithfulSAE: Towards Capturing Faithful Features with Sparse Autoencoders without External Dataset Dependencies

June 21, 2025
Авторы: Seonglae Cho, Harryn Oh, Donghyun Lee, Luis Eduardo Rodrigues Vieira, Andrew Bermingham, Ziad El Sayed
cs.AI

Аннотация

Разреженные автоэнкодеры (SAE) стали перспективным решением для декомпозиции представлений крупных языковых моделей на интерпретируемые признаки. Однако Пауло и Белроуз (2025) отметили нестабильность при различных начальных значениях (инициализационных сидах), а Хип и др. (2025) указали, что SAE могут не захватывать внутренние признаки модели. Эти проблемы, вероятно, возникают из-за обучения SAE на внешних наборах данных — собранных из интернета или сгенерированных другой моделью, — которые могут содержать данные, выходящие за пределы обобщающих способностей модели (out-of-distribution, OOD). Это может приводить к появлению "фальшивых признаков" (Fake Features), которые искажают внутренние активации модели. Для решения этих проблем мы предлагаем FaithfulSAE — метод, который обучает SAE на синтетических данных самой модели. Используя FaithfulSAE, мы демонстрируем, что обучение SAE на менее OOD наборах инструкций делает SAE более стабильными при различных сидах. Примечательно, что FaithfulSAE превосходят SAE, обученные на интернет-данных, в задаче зондирования SAE и демонстрируют более низкий коэффициент "фальшивых признаков" в 5 из 7 моделей. В целом наш подход устраняет зависимость от внешних наборов данных, улучшая интерпретируемость за счет более точного захвата внутренних признаков модели и подчеркивая часто упускаемую важность наборов данных для обучения SAE.
English
Sparse Autoencoders (SAEs) have emerged as a promising solution for decomposing large language model representations into interpretable features. However, Paulo and Belrose (2025) have highlighted instability across different initialization seeds, and Heap et al. (2025) have pointed out that SAEs may not capture model-internal features. These problems likely stem from training SAEs on external datasets - either collected from the Web or generated by another model - which may contain out-of-distribution (OOD) data beyond the model's generalisation capabilities. This can result in hallucinated SAE features, which we term "Fake Features", that misrepresent the model's internal activations. To address these issues, we propose FaithfulSAE, a method that trains SAEs on the model's own synthetic dataset. Using FaithfulSAEs, we demonstrate that training SAEs on less-OOD instruction datasets results in SAEs being more stable across seeds. Notably, FaithfulSAEs outperform SAEs trained on web-based datasets in the SAE probing task and exhibit a lower Fake Feature Ratio in 5 out of 7 models. Overall, our approach eliminates the dependency on external datasets, advancing interpretability by better capturing model-internal features while highlighting the often neglected importance of SAE training datasets.
PDF41June 24, 2025