Resa: Modelli di Ragionamento Trasparente tramite SAE

Abstract

Con quale efficienza in termini di costi possiamo stimolare un ragionamento avanzato nei modelli linguistici sfruttando le loro rappresentazioni sottostanti? Rispondiamo a questa domanda con Resa, una famiglia di modelli di ragionamento da 1,5 miliardi di parametri addestrati attraverso una nuova ed efficiente procedura di tuning con autoencoder sparsi (SAE-Tuning). Questo metodo addestra prima un SAE per catturare le capacità di ragionamento da un modello sorgente, e poi utilizza il SAE addestrato per guidare un processo standard di fine-tuning supervisionato per stimolare tali capacità in un modello target, tutto utilizzando dati verificati di domande e risposte senza tracce di ragionamento. È degno di nota che, quando applicato a determinati modelli di base prima di un ulteriore addestramento con rinforzo (RL), SAE-Tuning mantiene oltre il 97% delle prestazioni di ragionamento della sua controparte addestrata con RL, riducendo i costi di addestramento di oltre 2000 volte a circa \$1 e il tempo di addestramento di oltre 450 volte a circa 20 minuti. Inoltre, quando applicato a modelli leggermente addestrati con RL (ad esempio, entro 1 ora su 2 GPU), consente prestazioni di ragionamento come il 43,33% di Pass@1 su AIME24 e il 90% di Pass@1 su AMC23 per un costo aggiuntivo di circa \$1. Sorprendentemente, le capacità di ragionamento estratte tramite SAE sono potenzialmente sia generalizzabili che modulari. La generalizzabilità significa che le capacità estratte da un dataset migliorano ancora le prestazioni su un corpus più ampio e sovrapposto. La modularità significa che le capacità estratte da Qwen o Qwen-Math possono essere aggiunte al modello R1-Distill al momento del test, senza alcun riaddestramento, e produrre guadagni comparabili. Estese analisi di ablazione convalidano questi risultati e tutti gli artefatti sono completamente open-source.

English

How cost-effectively can we elicit strong reasoning in language models by leveraging their underlying representations? We answer this question with Resa, a family of 1.5B reasoning models trained via a novel and efficient sparse autoencoder tuning (SAE-Tuning) procedure. This method first trains an SAE to capture reasoning abilities from a source model, and then uses the trained SAE to guide a standard supervised fine-tuning process to elicit such abilities in a target model, all using verified question-answer data without any reasoning traces. Notably, when applied to certain base models before further RL post-training, SAE-Tuning retains >97% of its RL-trained counterpart's reasoning performance while reducing training costs by >2000x to roughly \1 and training time by >450x to around 20 minutes. Furthermore, when applied to lightly RL-trained models (e.g., within 1 hour on 2 GPUs), it enables reasoning performance such as 43.33% Pass@1 on AIME24 and 90% Pass@1 on AMC23 for only around 1 additional cost. Surprisingly, the reasoning abilities extracted via SAEs are potentially both generalizable and modular. Generality means abilities extracted from one dataset still elevate performance on a larger and overlapping corpus. Modularity means abilities extracted from Qwen or Qwen-Math can be attached to the R1-Distill model at test time, without any retraining, and yield comparable gains. Extensive ablations validate these findings and all artifacts are fully open-sourced.

Resa: Modelli di Ragionamento Trasparente tramite SAE

Resa: Transparent Reasoning Models via SAEs

Abstract

Support