Resa: Modelli di Ragionamento Trasparente tramite SAE
Resa: Transparent Reasoning Models via SAEs
June 11, 2025
Autori: Shangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Deqing Fu, Willie Neiswanger
cs.AI
Abstract
Con quale efficienza in termini di costi possiamo stimolare un ragionamento avanzato nei modelli linguistici sfruttando le loro rappresentazioni sottostanti? Rispondiamo a questa domanda con Resa, una famiglia di modelli di ragionamento da 1,5 miliardi di parametri addestrati attraverso una nuova ed efficiente procedura di tuning con autoencoder sparsi (SAE-Tuning). Questo metodo addestra prima un SAE per catturare le capacità di ragionamento da un modello sorgente, e poi utilizza il SAE addestrato per guidare un processo standard di fine-tuning supervisionato per stimolare tali capacità in un modello target, tutto utilizzando dati verificati di domande e risposte senza tracce di ragionamento. È degno di nota che, quando applicato a determinati modelli di base prima di un ulteriore addestramento con rinforzo (RL), SAE-Tuning mantiene oltre il 97% delle prestazioni di ragionamento della sua controparte addestrata con RL, riducendo i costi di addestramento di oltre 2000 volte a circa \$1 e il tempo di addestramento di oltre 450 volte a circa 20 minuti. Inoltre, quando applicato a modelli leggermente addestrati con RL (ad esempio, entro 1 ora su 2 GPU), consente prestazioni di ragionamento come il 43,33% di Pass@1 su AIME24 e il 90% di Pass@1 su AMC23 per un costo aggiuntivo di circa \$1. Sorprendentemente, le capacità di ragionamento estratte tramite SAE sono potenzialmente sia generalizzabili che modulari. La generalizzabilità significa che le capacità estratte da un dataset migliorano ancora le prestazioni su un corpus più ampio e sovrapposto. La modularità significa che le capacità estratte da Qwen o Qwen-Math possono essere aggiunte al modello R1-Distill al momento del test, senza alcun riaddestramento, e produrre guadagni comparabili. Estese analisi di ablazione convalidano questi risultati e tutti gli artefatti sono completamente open-source.
English
How cost-effectively can we elicit strong reasoning in language models by
leveraging their underlying representations? We answer this question with Resa,
a family of 1.5B reasoning models trained via a novel and efficient sparse
autoencoder tuning (SAE-Tuning) procedure. This method first trains an SAE to
capture reasoning abilities from a source model, and then uses the trained SAE
to guide a standard supervised fine-tuning process to elicit such abilities in
a target model, all using verified question-answer data without any reasoning
traces. Notably, when applied to certain base models before further RL
post-training, SAE-Tuning retains >97% of its RL-trained counterpart's
reasoning performance while reducing training costs by >2000x to roughly \1
and training time by >450x to around 20 minutes. Furthermore, when applied to
lightly RL-trained models (e.g., within 1 hour on 2 GPUs), it enables reasoning
performance such as 43.33% Pass@1 on AIME24 and 90% Pass@1 on AMC23 for only
around 1 additional cost. Surprisingly, the reasoning abilities extracted via
SAEs are potentially both generalizable and modular. Generality means abilities
extracted from one dataset still elevate performance on a larger and
overlapping corpus. Modularity means abilities extracted from Qwen or Qwen-Math
can be attached to the R1-Distill model at test time, without any retraining,
and yield comparable gains. Extensive ablations validate these findings and all
artifacts are fully open-sourced.