ChatPaper.aiChatPaper

PolySAE: 다항식 디코딩을 통한 희소 오토인코더의 특징 상호작용 모델링

PolySAE: Modeling Feature Interactions in Sparse Autoencoders via Polynomial Decoding

February 1, 2026
저자: Panagiotis Koromilas, Andreas D. Demou, James Oldfield, Yannis Panagakis, Mihalis Nicolaou
cs.AI

초록

희소 오토인코더(SAE)는 신경망 표현을 해석하는 유망한 방법으로 부각되어 왔으며, 활성화를 사전 원자들의 희소 조합으로 분해합니다. 그러나 SAE는 특징들이 선형 재구성을 통해 가법적으로 결합된다는 가정을 하는데, 이는 구성적 구조를 포착할 수 없는 한계가 있습니다. 선형 모델은 '스타벅스'가 '별'과 '커피' 특징의 구성에서 비롯된 것인지, 아니면 단순히 그들의 동시 발생에서 비롯된 것인지 구분할 수 없습니다. 이로 인해 SAE는 복합 개념에 대해 단일적인 특징을 할당하게 되며, 이를 해석 가능한 구성 요소로 분해하지 못합니다. 본 연구에서는 PolySAE를 소개합니다. PolySAE는 해석 가능성에 필수적인 선형 인코더를 유지하면서 특징 상호작용을 모델링하기 위해 고차 항을 통해 SAE 디코더를 확장합니다. 공유 투영 부분 공간에 대한 낮은 계수 텐서 분해를 통해, PolySAE는 적은 매개변수 오버헤드(GPT2 기준 3%)로 쌍별 및 삼중 특징 상호작용을 포착합니다. 4개의 언어 모델과 3가지 SAE 변형에 걸친 실험에서 PolySAE는 비교 가능한 재구성 오차를 유지하면서 프로빙 F1 점수에서 평균 약 8%의 향상을 달성했으며, 클래스 조건부 특징 분포 간 2~10배 더 큰 바슈타인 거리를 생성했습니다. 중요한 것은, 학습된 상호작용 가중치가 동시 발생 빈도와 무시할 수 있는 상관관계(r = 0.06)를 보인 반면, SAE 특징 공분산은 높은 상관관계(r = 0.82)를 보여, 다항식 항이 형태소 결합 및 구문 구성과 같은 구성적 구조를 표면 통계와는 거의 독립적으로 포착함을 시사합니다.
English
Sparse autoencoders (SAEs) have emerged as a promising method for interpreting neural network representations by decomposing activations into sparse combinations of dictionary atoms. However, SAEs assume that features combine additively through linear reconstruction, an assumption that cannot capture compositional structure: linear models cannot distinguish whether "Starbucks" arises from the composition of "star" and "coffee" features or merely their co-occurrence. This forces SAEs to allocate monolithic features for compound concepts rather than decomposing them into interpretable constituents. We introduce PolySAE, which extends the SAE decoder with higher-order terms to model feature interactions while preserving the linear encoder essential for interpretability. Through low-rank tensor factorization on a shared projection subspace, PolySAE captures pairwise and triple feature interactions with small parameter overhead (3% on GPT2). Across four language models and three SAE variants, PolySAE achieves an average improvement of approximately 8% in probing F1 while maintaining comparable reconstruction error, and produces 2-10times larger Wasserstein distances between class-conditional feature distributions. Critically, learned interaction weights exhibit negligible correlation with co-occurrence frequency (r = 0.06 vs. r = 0.82 for SAE feature covariance), suggesting that polynomial terms capture compositional structure, such as morphological binding and phrasal composition, largely independent of surface statistics.
PDF82February 7, 2026