PolySAE: Modellierung von Merkmalsinteraktionen in spärlichen Autoencodern durch polynomiale Decodierung
PolySAE: Modeling Feature Interactions in Sparse Autoencoders via Polynomial Decoding
February 1, 2026
papers.authors: Panagiotis Koromilas, Andreas D. Demou, James Oldfield, Yannis Panagakis, Mihalis Nicolaou
cs.AI
papers.abstract
Sparse Autoencoder (SAE) haben sich als vielversprechende Methode zur Interpretation neuronaler Netzwerkrepräsentationen etabliert, indem sie Aktivierungen in sparsame Kombinationen von Wörterbuch-Atomen zerlegen. Allerdings gehen SAEs davon aus, dass sich Merkmale additiv durch lineare Rekonstruktion kombinieren – eine Annahme, die kompositionelle Strukturen nicht erfassen kann: Lineare Modelle können nicht unterscheiden, ob "Starbucks" aus der Komposition von "Star"- und "Coffee"-Merkmalen entsteht oder lediglich aus deren gemeinsamen Auftreten. Dies zwingt SAEs dazu, monolithische Merkmale für zusammengesetzte Konzepte zuzuordnen, anstatt sie in interpretierbare Bestandteile zu zerlegen. Wir stellen PolySAE vor, das den SAE-Decoder um Terme höherer Ordnung erweitert, um Merkmalsinteraktionen zu modellieren, während der für die Interpretierbarkeit essentielle lineare Encoder beibehalten wird. Durch Low-Rank-Tensor-Faktorisierung auf einem gemeinsamen Projektionsunterraum erfasst PolySAE paarweise und dreifache Merkmalsinteraktionen mit geringem Parameteroverhead (3 % bei GPT2). Über vier Sprachmodelle und drei SAE-Varianten hinweg erzielt PolySAE eine durchschnittliche Verbesserung von etwa 8 % im F1-Score beim Probing bei vergleichbarem Rekonstruktionsfehler und erzeugt 2-10 mal größere Wasserstein-Distanzen zwischen klassenbedingten Merkmalsverteilungen. Entscheidend ist, dass die gelernten Interaktionsgewichte eine vernachlässigbare Korrelation mit der Kookkurrenzhäufigkeit aufweisen (r = 0,06 vs. r = 0,82 für die SAE-Merkmalskovarianz), was darauf hindeutet, dass die polynomiellen Terme kompositionelle Strukturen wie morphologische Bindung und phrasale Komposition erfassen, die weitgehend unabhängig von Oberflächenstatistiken sind.
English
Sparse autoencoders (SAEs) have emerged as a promising method for interpreting neural network representations by decomposing activations into sparse combinations of dictionary atoms. However, SAEs assume that features combine additively through linear reconstruction, an assumption that cannot capture compositional structure: linear models cannot distinguish whether "Starbucks" arises from the composition of "star" and "coffee" features or merely their co-occurrence. This forces SAEs to allocate monolithic features for compound concepts rather than decomposing them into interpretable constituents. We introduce PolySAE, which extends the SAE decoder with higher-order terms to model feature interactions while preserving the linear encoder essential for interpretability. Through low-rank tensor factorization on a shared projection subspace, PolySAE captures pairwise and triple feature interactions with small parameter overhead (3% on GPT2). Across four language models and three SAE variants, PolySAE achieves an average improvement of approximately 8% in probing F1 while maintaining comparable reconstruction error, and produces 2-10times larger Wasserstein distances between class-conditional feature distributions. Critically, learned interaction weights exhibit negligible correlation with co-occurrence frequency (r = 0.06 vs. r = 0.82 for SAE feature covariance), suggesting that polynomial terms capture compositional structure, such as morphological binding and phrasal composition, largely independent of surface statistics.