PolySAE: Modellazione delle Interazioni tra Caratteristiche negli Autoencoder Sparsi tramite Decodifica Polinomiale

Abstract

Gli autoencoder sparsi (SAE) sono emersi come un metodo promettente per interpretare le rappresentazioni delle reti neurali, scomponendo le attivazioni in combinazioni sparse di atomi del dizionario. Tuttavia, i SAE presuppongono che le caratteristiche si combinino in modo additivo attraverso la ricostruzione lineare, un presupposto che non può catturare la struttura compositiva: i modelli lineari non possono distinguere se "Starbucks" derivi dalla composizione delle caratteristiche "star" e "coffee" o semplicemente dalla loro co-occorrenza. Ciò costringe i SAE ad allocare caratteristiche monolitiche per concetti composti, anziché scomporli in costituenti interpretabili. Introduciamo PolySAE, che estende il decodificatore SAE con termini di ordine superiore per modellare le interazioni tra caratteristiche, preservando al contempo il codificatore lineare essenziale per l'interpretabilità. Attraverso la fattorizzazione tensoriale di rango ridotto su un sottospazio di proiezione condiviso, PolySAE cattura interazioni tra coppie e triple di caratteristiche con un piccolo sovraccarico parametrico (3% su GPT2). Su quattro modelli linguistici e tre varianti di SAE, PolySAE ottiene un miglioramento medio di circa l'8% nell'F1 di probing mantenendo un errore di ricostruzione comparabile e produce distanze di Wasserstein tra le distribuzioni condizionate delle caratteristiche da 2 a 10 volte maggiori. In modo cruciale, i pesi di interazione appresi mostrano una correlazione trascurabile con la frequenza di co-occorrenza (r = 0,06 contro r = 0,82 per la covarianza delle caratteristiche SAE), suggerendo che i termini polinomiali catturino la struttura compositiva, come il legame morfologico e la composizione frasale, in larga misura indipendente dalle statistiche superficiali.

English

Sparse autoencoders (SAEs) have emerged as a promising method for interpreting neural network representations by decomposing activations into sparse combinations of dictionary atoms. However, SAEs assume that features combine additively through linear reconstruction, an assumption that cannot capture compositional structure: linear models cannot distinguish whether "Starbucks" arises from the composition of "star" and "coffee" features or merely their co-occurrence. This forces SAEs to allocate monolithic features for compound concepts rather than decomposing them into interpretable constituents. We introduce PolySAE, which extends the SAE decoder with higher-order terms to model feature interactions while preserving the linear encoder essential for interpretability. Through low-rank tensor factorization on a shared projection subspace, PolySAE captures pairwise and triple feature interactions with small parameter overhead (3% on GPT2). Across four language models and three SAE variants, PolySAE achieves an average improvement of approximately 8% in probing F1 while maintaining comparable reconstruction error, and produces 2-10times larger Wasserstein distances between class-conditional feature distributions. Critically, learned interaction weights exhibit negligible correlation with co-occurrence frequency (r = 0.06 vs. r = 0.82 for SAE feature covariance), suggesting that polynomial terms capture compositional structure, such as morphological binding and phrasal composition, largely independent of surface statistics.

PolySAE: Modellazione delle Interazioni tra Caratteristiche negli Autoencoder Sparsi tramite Decodifica Polinomiale

PolySAE: Modeling Feature Interactions in Sparse Autoencoders via Polynomial Decoding

Abstract

Support