PolySAE : Modélisation des interactions de caractéristiques dans les autoencodeurs épars via un décodage polynomial
PolySAE: Modeling Feature Interactions in Sparse Autoencoders via Polynomial Decoding
February 1, 2026
papers.authors: Panagiotis Koromilas, Andreas D. Demou, James Oldfield, Yannis Panagakis, Mihalis Nicolaou
cs.AI
papers.abstract
Les autoencodeurs parcimonieux (SAE) sont apparus comme une méthode prometteuse pour interpréter les représentations des réseaux neuronaux en décomposant les activations en combinaisons parcimonieuses d'atomes de dictionnaire. Cependant, les SAE supposent que les caractéristiques se combinent de manière additive via une reconstruction linéaire, une hypothèse qui ne peut pas capturer la structure compositionnelle : les modèles linéaires ne peuvent pas distinguer si "Starbucks" provient de la composition des caractéristiques "star" et "café" ou simplement de leur co-occurrence. Cela force les SAE à allouer des caractéristiques monolithiques pour les concepts composés plutôt que de les décomposer en constituants interprétables. Nous présentons PolySAE, qui étend le décodeur SAE avec des termes d'ordre supérieur pour modéliser les interactions entre caractéristiques tout en préservant l'encodeur linéaire essentiel à l'interprétabilité. Grâce à une factorisation tensorielle de faible rang sur un sous-espace de projection partagé, PolySAE capture les interactions par paires et triples entre caractéristiques avec une faible surcharge paramétrique (3% sur GPT2). Sur quatre modèles de langage et trois variantes de SAE, PolySAE obtient une amélioration moyenne d'environ 8% du F1 en probing tout en maintenant une erreur de reconstruction comparable, et produit des distances de Wasserstein 2 à 10 fois plus grandes entre les distributions conditionnelles de caractéristiques par classe. Fait crucial, les poids d'interaction appris présentent une corrélation négligeable avec la fréquence de co-occurrence (r = 0,06 contre r = 0,82 pour la covariance des caractéristiques SAE), suggérant que les termes polynomiaux capturent la structure compositionnelle, telle que la liaison morphologique et la composition phrastique, largement indépendante des statistiques de surface.
English
Sparse autoencoders (SAEs) have emerged as a promising method for interpreting neural network representations by decomposing activations into sparse combinations of dictionary atoms. However, SAEs assume that features combine additively through linear reconstruction, an assumption that cannot capture compositional structure: linear models cannot distinguish whether "Starbucks" arises from the composition of "star" and "coffee" features or merely their co-occurrence. This forces SAEs to allocate monolithic features for compound concepts rather than decomposing them into interpretable constituents. We introduce PolySAE, which extends the SAE decoder with higher-order terms to model feature interactions while preserving the linear encoder essential for interpretability. Through low-rank tensor factorization on a shared projection subspace, PolySAE captures pairwise and triple feature interactions with small parameter overhead (3% on GPT2). Across four language models and three SAE variants, PolySAE achieves an average improvement of approximately 8% in probing F1 while maintaining comparable reconstruction error, and produces 2-10times larger Wasserstein distances between class-conditional feature distributions. Critically, learned interaction weights exhibit negligible correlation with co-occurrence frequency (r = 0.06 vs. r = 0.82 for SAE feature covariance), suggesting that polynomial terms capture compositional structure, such as morphological binding and phrasal composition, largely independent of surface statistics.