WriteSAE: Sparse Auto-encoders voor Recurrente Toestand

Samenvatting

Wij introduceren WriteSAE, de eerste sparse autoencoder die de matrix-cache-schrijfhandeling van toestandsruimte- en hybride recurrente taalmodellen ontleedt en bewerkt, waar residuele SAE’s niet bij kunnen. Bestaande SAE’s lezen residuele stromen, maar Gated DeltaNet, Mamba-2 en RWKV-7 schrijven naar een d_k bij d_v cache via rang-1-updates k_t v_t^top die geen vectoratoom kan vervangen. WriteSAE ontleedt elk decoderatoom in de oorspronkelijke schrijfvorm, legt een gesloten vorm bloot voor de per-token logitverschuiving, en traint onder een gematchte Frobenius-norm zodat atomen telkens één cacheslot verwisselen. Atoomsubstitutie verslaat gematchte-norm-ablatie op 92,4% van n=4.851 ontladingen bij Qwen3.5-0.8B L9 H4, de 87-atoom populatietest staat op 89,8%, de gesloten vorm voorspelt gemeten effecten met R²=0,98, en Mamba-2-370M substitueert op 88,1% over 2.500 ontladingen. Aanhoudende drieposities-installaties realiseren een 3x verhoging van het midrank-doel-in-continuatie van 33,3% naar 100% onder greedy decoding, de eerste gedragsinstallatie op de matrix-recurrente schrijfplaats.

English

We introduce WriteSAE, the first sparse autoencoder that decomposes and edits the matrix cache write of state-space and hybrid recurrent language models, where residual SAEs cannot reach. Existing SAEs read residual streams, but Gated DeltaNet, Mamba-2, and RWKV-7 write to a d_k times d_v cache through rank-1 updates k_t v_t^top that no vector atom can replace. WriteSAE factors each decoder atom into the native write shape, exposes a closed form for the per-token logit shift, and trains under matched Frobenius norm so atoms swap one cache slot at a time. Atom substitution beats matched-norm ablation on 92.4% of n=4{,}851 firings at Qwen3.5-0.8B L9 H4, the 87-atom population test holds at 89.8%, the closed form predicts measured effects at R^2=0.98, and Mamba-2-370M substitutes at 88.1% over 2,500 firings. Sustained three-position installs at 3times lift midrank target-in-continuation from 33.3% to 100% under greedy decoding, the first behavioral install at the matrix-recurrent write site.