PolySAE: Modelagem de Interações de Características em Autoencoders Esparsos via Decodificação Polinomial

Resumo

Os autoencoders esparsos (SAEs) emergiram como um método promissor para interpretar representações de redes neurais, decompondo ativações em combinações esparsas de átomos de dicionário. No entanto, os SAEs assumem que as características se combinam aditivamente por meio de reconstrução linear, uma suposição que não consegue capturar estrutura composicional: modelos lineares não podem distinguir se "Starbucks" surge da composição das características "star" e "coffee" ou meramente da sua co-ocorrência. Isso força os SAEs a alocar características monolíticas para conceitos compostos, em vez de decompô-los em constituintes interpretáveis. Apresentamos o PolySAE, que estende o decodificador do SAE com termos de ordem superior para modelar interações entre características, preservando o codificador linear essencial para a interpretabilidade. Através da fatoração tensorial de baixo posto em um subespaço de projeção compartilhado, o PolySAE captura interações pareadas e triplas entre características com uma pequena sobrecarga paramétrica (3% no GPT2). Em quatro modelos de linguagem e três variantes de SAE, o PolySAE alcança uma melhoria média de aproximadamente 8% no F1 de *probing*, mantendo um erro de reconstrução comparável, e produz distâncias de Wasserstein 2 a 10 vezes maiores entre distribuições de características condicionadas à classe. Criticamente, os pesos de interação aprendidos exibem correlação negligenciável com a frequência de co-ocorrência (r = 0,06 versus r = 0,82 para a covariância de características do SAE), sugerindo que os termos polinomiais capturam estrutura composicional, como ligação morfológica e composição frasal, largamente independente de estatísticas superficiais.

English

Sparse autoencoders (SAEs) have emerged as a promising method for interpreting neural network representations by decomposing activations into sparse combinations of dictionary atoms. However, SAEs assume that features combine additively through linear reconstruction, an assumption that cannot capture compositional structure: linear models cannot distinguish whether "Starbucks" arises from the composition of "star" and "coffee" features or merely their co-occurrence. This forces SAEs to allocate monolithic features for compound concepts rather than decomposing them into interpretable constituents. We introduce PolySAE, which extends the SAE decoder with higher-order terms to model feature interactions while preserving the linear encoder essential for interpretability. Through low-rank tensor factorization on a shared projection subspace, PolySAE captures pairwise and triple feature interactions with small parameter overhead (3% on GPT2). Across four language models and three SAE variants, PolySAE achieves an average improvement of approximately 8% in probing F1 while maintaining comparable reconstruction error, and produces 2-10times larger Wasserstein distances between class-conditional feature distributions. Critically, learned interaction weights exhibit negligible correlation with co-occurrence frequency (r = 0.06 vs. r = 0.82 for SAE feature covariance), suggesting that polynomial terms capture compositional structure, such as morphological binding and phrasal composition, largely independent of surface statistics.

PolySAE: Modelagem de Interações de Características em Autoencoders Esparsos via Decodificação Polinomial

PolySAE: Modeling Feature Interactions in Sparse Autoencoders via Polynomial Decoding

Resumo

Support