FaithfulSAE: Rumo à Captura de Recursos Fiéis com Autoencoders Esparsos sem Dependências de Conjuntos de Dados Externos
FaithfulSAE: Towards Capturing Faithful Features with Sparse Autoencoders without External Dataset Dependencies
June 21, 2025
Autores: Seonglae Cho, Harryn Oh, Donghyun Lee, Luis Eduardo Rodrigues Vieira, Andrew Bermingham, Ziad El Sayed
cs.AI
Resumo
Autoencoders Esparsos (SAEs) surgiram como uma solução promissora para decompor as representações de grandes modelos de linguagem em características interpretáveis. No entanto, Paulo e Belrose (2025) destacaram instabilidades em diferentes sementes de inicialização, e Heap et al. (2025) apontaram que os SAEs podem não capturar características internas do modelo. Esses problemas provavelmente decorrem do treinamento de SAEs em conjuntos de dados externos — seja coletados da Web ou gerados por outro modelo — que podem conter dados fora da distribuição (OOD, do inglês *out-of-distribution*) além das capacidades de generalização do modelo. Isso pode resultar em características de SAE alucinadas, que denominamos "Características Falsas", que distorcem as ativações internas do modelo. Para abordar esses problemas, propomos o FaithfulSAE, um método que treina SAEs no próprio conjunto de dados sintético do modelo. Usando FaithfulSAEs, demonstramos que o treinamento de SAEs em conjuntos de dados de instruções menos OOD resulta em SAEs mais estáveis entre diferentes sementes. Notavelmente, os FaithfulSAEs superam os SAEs treinados em conjuntos de dados baseados na Web na tarefa de sondagem de SAE e exibem uma Taxa de Características Falsas menor em 5 de 7 modelos. No geral, nossa abordagem elimina a dependência de conjuntos de dados externos, avançando a interpretabilidade ao capturar melhor as características internas do modelo, ao mesmo tempo em que destaca a importância frequentemente negligenciada dos conjuntos de dados de treinamento de SAEs.
English
Sparse Autoencoders (SAEs) have emerged as a promising solution for
decomposing large language model representations into interpretable features.
However, Paulo and Belrose (2025) have highlighted instability across different
initialization seeds, and Heap et al. (2025) have pointed out that SAEs may not
capture model-internal features. These problems likely stem from training SAEs
on external datasets - either collected from the Web or generated by another
model - which may contain out-of-distribution (OOD) data beyond the model's
generalisation capabilities. This can result in hallucinated SAE features,
which we term "Fake Features", that misrepresent the model's internal
activations. To address these issues, we propose FaithfulSAE, a method that
trains SAEs on the model's own synthetic dataset. Using FaithfulSAEs, we
demonstrate that training SAEs on less-OOD instruction datasets results in SAEs
being more stable across seeds. Notably, FaithfulSAEs outperform SAEs trained
on web-based datasets in the SAE probing task and exhibit a lower Fake Feature
Ratio in 5 out of 7 models. Overall, our approach eliminates the dependency on
external datasets, advancing interpretability by better capturing
model-internal features while highlighting the often neglected importance of
SAE training datasets.