WriteSAE: Autoencoders Esparsos para Estado Recorrente

Resumo

Apresentamos o WriteSAE, o primeiro autoencoder esparso que decompõe e edita a escrita de cache matricial de modelos de linguagem de espaço de estados e recorrentes híbridos, onde SAEs residuais não conseguem alcançar. SAEs existentes leem fluxos residuais, mas Gated DeltaNet, Mamba-2 e RWKV-7 escrevem em um cache de dimensão \(d_k\) vezes \(d_v\) através de atualizações de posto 1 \(k_t v_t^\top\) que nenhum átomo vetorial pode substituir. O WriteSAE fatora cada átomo do decodificador na forma de escrita nativa, expõe uma forma fechada para o deslocamento de logit por token e treina sob norma de Frobenius combinada, de modo que os átomos trocam um slot de cache por vez. Substituição de átomo supera a ablação de norma combinada em 92,4% dos \(n = 4.851\) disparos no Qwen3.5-0.8B L9 H4, o teste populacional de 87 átomos se mantém em 89,8%, a forma fechada prevê efeitos medidos com \(R^2 = 0,98\), e o Mamba-2-370M substitui em 88,1% em 2.500 disparos. Instalações sustentadas de três posições elevam em 3 vezes o alvo de continuação de classificação média de 33,3% para 100% sob decodificação gulosa, a primeira instalação comportamental no sítio de escrita matricial-recursiva.

English

We introduce WriteSAE, the first sparse autoencoder that decomposes and edits the matrix cache write of state-space and hybrid recurrent language models, where residual SAEs cannot reach. Existing SAEs read residual streams, but Gated DeltaNet, Mamba-2, and RWKV-7 write to a d_k times d_v cache through rank-1 updates k_t v_t^top that no vector atom can replace. WriteSAE factors each decoder atom into the native write shape, exposes a closed form for the per-token logit shift, and trains under matched Frobenius norm so atoms swap one cache slot at a time. Atom substitution beats matched-norm ablation on 92.4% of n=4{,}851 firings at Qwen3.5-0.8B L9 H4, the 87-atom population test holds at 89.8%, the closed form predicts measured effects at R^2=0.98, and Mamba-2-370M substitutes at 88.1% over 2,500 firings. Sustained three-position installs at 3times lift midrank target-in-continuation from 33.3% to 100% under greedy decoding, the first behavioral install at the matrix-recurrent write site.