PolySAE: Modelado de Interacciones de Características en Autoencoders Dispersos mediante Decodificación Polinomial
PolySAE: Modeling Feature Interactions in Sparse Autoencoders via Polynomial Decoding
February 1, 2026
Autores: Panagiotis Koromilas, Andreas D. Demou, James Oldfield, Yannis Panagakis, Mihalis Nicolaou
cs.AI
Resumen
Los autoencodificadores dispersos (SAE) han surgido como un método prometedor para interpretar las representaciones de redes neuronales mediante la descomposición de activaciones en combinaciones dispersas de átomos de diccionario. Sin embargo, los SAE asumen que las características se combinan de forma aditiva mediante reconstrucción lineal, una suposición que no puede capturar la estructura compositiva: los modelos lineales no pueden distinguir si "Starbucks" surge de la composición de las características "estrella" y "café" o simplemente de su co-ocurrencia. Esto obliga a los SAE a asignar características monolíticas para conceptos compuestos en lugar de descomponerlos en constituyentes interpretables. Presentamos PolySAE, que extiende el decodificador SAE con términos de orden superior para modelar interacciones entre características mientras preserva el codificador lineal, esencial para la interpretabilidad. Mediante factorización tensorial de bajo rango en un subespacio de proyección compartido, PolySAE captura interacciones de pares y tríos de características con una pequeña sobrecarga de parámetros (3% en GPT2). En cuatro modelos de lenguaje y tres variantes de SAE, PolySAE logra una mejora promedio de aproximadamente el 8% en F1 de *probing* mientras mantiene un error de reconstrucción comparable, y produce distancias de Wasserstein entre distribuciones de características condicionadas por clase entre 2 y 10 veces mayores. Críticamente, los pesos de interacción aprendidos exhiben una correlación negligible con la frecuencia de co-ocurrencia (r = 0,06 frente a r = 0,82 para la covarianza de características de SAE), lo que sugiere que los términos polinomiales capturan estructura compositiva, como la unión morfológica y la composición frasal, en gran medida independiente de las estadísticas superficiales.
English
Sparse autoencoders (SAEs) have emerged as a promising method for interpreting neural network representations by decomposing activations into sparse combinations of dictionary atoms. However, SAEs assume that features combine additively through linear reconstruction, an assumption that cannot capture compositional structure: linear models cannot distinguish whether "Starbucks" arises from the composition of "star" and "coffee" features or merely their co-occurrence. This forces SAEs to allocate monolithic features for compound concepts rather than decomposing them into interpretable constituents. We introduce PolySAE, which extends the SAE decoder with higher-order terms to model feature interactions while preserving the linear encoder essential for interpretability. Through low-rank tensor factorization on a shared projection subspace, PolySAE captures pairwise and triple feature interactions with small parameter overhead (3% on GPT2). Across four language models and three SAE variants, PolySAE achieves an average improvement of approximately 8% in probing F1 while maintaining comparable reconstruction error, and produces 2-10times larger Wasserstein distances between class-conditional feature distributions. Critically, learned interaction weights exhibit negligible correlation with co-occurrence frequency (r = 0.06 vs. r = 0.82 for SAE feature covariance), suggesting that polynomial terms capture compositional structure, such as morphological binding and phrasal composition, largely independent of surface statistics.