ChatPaper.aiChatPaper

PolySAE: Моделирование взаимодействий признаков в разреженных автоэнкодерах с помощью полиномиального декодирования

PolySAE: Modeling Feature Interactions in Sparse Autoencoders via Polynomial Decoding

February 1, 2026
Авторы: Panagiotis Koromilas, Andreas D. Demou, James Oldfield, Yannis Panagakis, Mihalis Nicolaou
cs.AI

Аннотация

Разреженные автоэнкодеры (SAE) стали перспективным методом интерпретации представлений нейронных сетей за счет декомпозиции активаций в разреженные комбинации словарных атомов. Однако SAE предполагают, что признаки комбинируются аддитивно через линейную реконструкцию — предположение, которое не может уловить композиционную структуру: линейные модели не способны различить, возникает ли «Starbucks» из композиции признаков «star» и «coffee» или просто из их совместного появления. Это вынуждает SAE выделять монолитные признаки для составных понятий вместо их декомпозиции на интерпретируемые составляющие. Мы представляем PolySAE, который расширяет декодер SAE членами высшего порядка для моделирования взаимодействий признаков, сохраняя при этом линейный кодировщик, критически важный для интерпретируемости. Благодаря низкоранговой тензорной факторизации в общем проекционном подпространстве PolySAE улавливает парные и тройные взаимодействия признаков с малыми вычислительными затратами (3% для GPT2). На четырех языковых моделях и трех вариантах SAE PolySAE демонстрирует в среднем улучшение F1-метрики на approximately 8% при сохранении сопоставимой ошибки реконструкции и обеспечивает в 2–10 раз большее расстояние Вассерштейна между условными распределениями признаков. Ключевым является то, что веса изученных взаимодействий показывают пренебрежимо малую корреляцию с частотой совместного появления (r = 0,06 против r = 0,82 для ковариации признаков SAE), что свидетельствует о том, что полиномиальные члены улавливают композиционную структуру, такую как морфологическое связывание и фразовая композиция, в значительной степени независимо от поверхностной статистики.
English
Sparse autoencoders (SAEs) have emerged as a promising method for interpreting neural network representations by decomposing activations into sparse combinations of dictionary atoms. However, SAEs assume that features combine additively through linear reconstruction, an assumption that cannot capture compositional structure: linear models cannot distinguish whether "Starbucks" arises from the composition of "star" and "coffee" features or merely their co-occurrence. This forces SAEs to allocate monolithic features for compound concepts rather than decomposing them into interpretable constituents. We introduce PolySAE, which extends the SAE decoder with higher-order terms to model feature interactions while preserving the linear encoder essential for interpretability. Through low-rank tensor factorization on a shared projection subspace, PolySAE captures pairwise and triple feature interactions with small parameter overhead (3% on GPT2). Across four language models and three SAE variants, PolySAE achieves an average improvement of approximately 8% in probing F1 while maintaining comparable reconstruction error, and produces 2-10times larger Wasserstein distances between class-conditional feature distributions. Critically, learned interaction weights exhibit negligible correlation with co-occurrence frequency (r = 0.06 vs. r = 0.82 for SAE feature covariance), suggesting that polynomial terms capture compositional structure, such as morphological binding and phrasal composition, largely independent of surface statistics.
PDF82February 7, 2026