FaithfulSAE: Hacia la Captura de Características Fieles con Autoencoders Escasos sin Dependencias de Conjuntos de Datos Externos
FaithfulSAE: Towards Capturing Faithful Features with Sparse Autoencoders without External Dataset Dependencies
June 21, 2025
Autores: Seonglae Cho, Harryn Oh, Donghyun Lee, Luis Eduardo Rodrigues Vieira, Andrew Bermingham, Ziad El Sayed
cs.AI
Resumen
Los Autoencoders Escasos (SAEs, por sus siglas en inglés) han surgido como una solución prometedora para descomponer las representaciones de los modelos de lenguaje extensos en características interpretables. Sin embargo, Paulo y Belrose (2025) han destacado la inestabilidad en diferentes semillas de inicialización, y Heap et al. (2025) han señalado que los SAEs podrían no capturar las características internas del modelo. Estos problemas probablemente se originan al entrenar SAEs en conjuntos de datos externos, ya sea recopilados de la Web o generados por otro modelo, que pueden contener datos fuera de distribución (OOD, por sus siglas en inglés) más allá de las capacidades de generalización del modelo. Esto puede resultar en características de SAE alucinadas, a las que denominamos "Características Falsas", que tergiversan las activaciones internas del modelo. Para abordar estos problemas, proponemos FaithfulSAE, un método que entrena SAEs en un conjunto de datos sintéticos generados por el propio modelo. Utilizando FaithfulSAEs, demostramos que entrenar SAEs en conjuntos de datos de instrucciones con menos OOD resulta en SAEs más estables entre semillas. Cabe destacar que los FaithfulSAEs superan a los SAEs entrenados en conjuntos de datos basados en la Web en la tarea de sondeo de SAE y exhiben una menor proporción de Características Falsas en 5 de 7 modelos. En general, nuestro enfoque elimina la dependencia de conjuntos de datos externos, avanzando en la interpretabilidad al capturar mejor las características internas del modelo, al tiempo que resalta la importancia frecuentemente descuidada de los conjuntos de datos de entrenamiento de SAEs.
English
Sparse Autoencoders (SAEs) have emerged as a promising solution for
decomposing large language model representations into interpretable features.
However, Paulo and Belrose (2025) have highlighted instability across different
initialization seeds, and Heap et al. (2025) have pointed out that SAEs may not
capture model-internal features. These problems likely stem from training SAEs
on external datasets - either collected from the Web or generated by another
model - which may contain out-of-distribution (OOD) data beyond the model's
generalisation capabilities. This can result in hallucinated SAE features,
which we term "Fake Features", that misrepresent the model's internal
activations. To address these issues, we propose FaithfulSAE, a method that
trains SAEs on the model's own synthetic dataset. Using FaithfulSAEs, we
demonstrate that training SAEs on less-OOD instruction datasets results in SAEs
being more stable across seeds. Notably, FaithfulSAEs outperform SAEs trained
on web-based datasets in the SAE probing task and exhibit a lower Fake Feature
Ratio in 5 out of 7 models. Overall, our approach eliminates the dependency on
external datasets, advancing interpretability by better capturing
model-internal features while highlighting the often neglected importance of
SAE training datasets.