FaithfulSAE: Hacia la Captura de Características Fieles con Autoencoders Escasos sin Dependencias de Conjuntos de Datos Externos

Resumen

Los Autoencoders Escasos (SAEs, por sus siglas en inglés) han surgido como una solución prometedora para descomponer las representaciones de los modelos de lenguaje extensos en características interpretables. Sin embargo, Paulo y Belrose (2025) han destacado la inestabilidad en diferentes semillas de inicialización, y Heap et al. (2025) han señalado que los SAEs podrían no capturar las características internas del modelo. Estos problemas probablemente se originan al entrenar SAEs en conjuntos de datos externos, ya sea recopilados de la Web o generados por otro modelo, que pueden contener datos fuera de distribución (OOD, por sus siglas en inglés) más allá de las capacidades de generalización del modelo. Esto puede resultar en características de SAE alucinadas, a las que denominamos "Características Falsas", que tergiversan las activaciones internas del modelo. Para abordar estos problemas, proponemos FaithfulSAE, un método que entrena SAEs en un conjunto de datos sintéticos generados por el propio modelo. Utilizando FaithfulSAEs, demostramos que entrenar SAEs en conjuntos de datos de instrucciones con menos OOD resulta en SAEs más estables entre semillas. Cabe destacar que los FaithfulSAEs superan a los SAEs entrenados en conjuntos de datos basados en la Web en la tarea de sondeo de SAE y exhiben una menor proporción de Características Falsas en 5 de 7 modelos. En general, nuestro enfoque elimina la dependencia de conjuntos de datos externos, avanzando en la interpretabilidad al capturar mejor las características internas del modelo, al tiempo que resalta la importancia frecuentemente descuidada de los conjuntos de datos de entrenamiento de SAEs.

English

Sparse Autoencoders (SAEs) have emerged as a promising solution for decomposing large language model representations into interpretable features. However, Paulo and Belrose (2025) have highlighted instability across different initialization seeds, and Heap et al. (2025) have pointed out that SAEs may not capture model-internal features. These problems likely stem from training SAEs on external datasets - either collected from the Web or generated by another model - which may contain out-of-distribution (OOD) data beyond the model's generalisation capabilities. This can result in hallucinated SAE features, which we term "Fake Features", that misrepresent the model's internal activations. To address these issues, we propose FaithfulSAE, a method that trains SAEs on the model's own synthetic dataset. Using FaithfulSAEs, we demonstrate that training SAEs on less-OOD instruction datasets results in SAEs being more stable across seeds. Notably, FaithfulSAEs outperform SAEs trained on web-based datasets in the SAE probing task and exhibit a lower Fake Feature Ratio in 5 out of 7 models. Overall, our approach eliminates the dependency on external datasets, advancing interpretability by better capturing model-internal features while highlighting the often neglected importance of SAE training datasets.

FaithfulSAE: Hacia la Captura de Características Fieles con Autoencoders Escasos sin Dependencias de Conjuntos de Datos Externos

FaithfulSAE: Towards Capturing Faithful Features with Sparse Autoencoders without External Dataset Dependencies

Resumen

Support