PolySAE: 多項式デコーディングによるスパースオートエンコーダーの特徴量相互作用のモデル化
PolySAE: Modeling Feature Interactions in Sparse Autoencoders via Polynomial Decoding
February 1, 2026
著者: Panagiotis Koromilas, Andreas D. Demou, James Oldfield, Yannis Panagakis, Mihalis Nicolaou
cs.AI
要旨
スパースオートエンコーダ(SAE)は、ニューラルネットワークの表現を辞書アトムのスパースな線形結合に分解することで、その解釈を可能とする手法として注目されている。しかし、SAEは特徴量が線形再構成によって加算的に結合されると仮定しており、この仮定では合成的な構造を捉えることができない。すなわち、線形モデルは「Starbucks」という表現が「star」と「coffee」の特徴量の合成によって生じるのか、単に両者の共起によるものなのかを区別できない。このため、SAEは複合概念に対して解釈可能な構成要素への分解ではなく、一枚岩的な特徴量を割り当てることを余儀なくされる。本研究では、解釈可能性に不可欠な線形エンコーダを維持しつつ、特徴量間の相互作用をモデル化するために高次項をデコーダに追加したPolySAEを提案する。共有された射影部分空間上での低ランクテンソル分解を通じて、PolySAEはペアワイズおよびトリプルの特徴量相互作用をわずかなパラメータオーバーヘッド(GPT2では3%)で捉える。4つの言語モデルと3つのSAE変種を用いた実験において、PolySAEは再構成誤差を同等に維持しながら、プロービングF1スコアで平均約8%の改善を達成し、クラス条件付き特徴量分布間のワッサーシュタイン距離を2~10倍大きくした。決定的には、学習された相互作用の重みは共起頻度との相関が無視できるほど小さく(相関係数r = 0.06、対してSAEの特徴量共分散ではr = 0.82)、多項式項が表面的な統計量からほぼ独立して、形態素的結合や句の構成といった合成的構造を捉えていることが示唆される。
English
Sparse autoencoders (SAEs) have emerged as a promising method for interpreting neural network representations by decomposing activations into sparse combinations of dictionary atoms. However, SAEs assume that features combine additively through linear reconstruction, an assumption that cannot capture compositional structure: linear models cannot distinguish whether "Starbucks" arises from the composition of "star" and "coffee" features or merely their co-occurrence. This forces SAEs to allocate monolithic features for compound concepts rather than decomposing them into interpretable constituents. We introduce PolySAE, which extends the SAE decoder with higher-order terms to model feature interactions while preserving the linear encoder essential for interpretability. Through low-rank tensor factorization on a shared projection subspace, PolySAE captures pairwise and triple feature interactions with small parameter overhead (3% on GPT2). Across four language models and three SAE variants, PolySAE achieves an average improvement of approximately 8% in probing F1 while maintaining comparable reconstruction error, and produces 2-10times larger Wasserstein distances between class-conditional feature distributions. Critically, learned interaction weights exhibit negligible correlation with co-occurrence frequency (r = 0.06 vs. r = 0.82 for SAE feature covariance), suggesting that polynomial terms capture compositional structure, such as morphological binding and phrasal composition, largely independent of surface statistics.