Resa: Modelos de Raciocínio Transparente via SAEs
Resa: Transparent Reasoning Models via SAEs
June 11, 2025
Autores: Shangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Deqing Fu, Willie Neiswanger
cs.AI
Resumo
Como podemos eliciar de forma custo-efetiva um raciocínio robusto em modelos de linguagem, aproveitando suas representações subjacentes? Respondemos a essa pergunta com Resa, uma família de modelos de raciocínio de 1,5B treinados por meio de um novo e eficiente procedimento de ajuste de autoencoder esparso (SAE-Tuning). Esse método primeiro treina um SAE para capturar habilidades de raciocínio de um modelo fonte e, em seguida, usa o SAE treinado para guiar um processo padrão de ajuste fino supervisionado, a fim de eliciar tais habilidades em um modelo alvo, tudo utilizando dados verificados de perguntas e respostas sem qualquer rastro de raciocínio. Notavelmente, quando aplicado a certos modelos base antes de um pós-treinamento adicional com RL, o SAE-Tuning mantém mais de 97% do desempenho de raciocínio de sua contraparte treinada com RL, enquanto reduz os custos de treinamento em mais de 2000x para aproximadamente \$1 e o tempo de treinamento em mais de 450x para cerca de 20 minutos. Além disso, quando aplicado a modelos levemente treinados com RL (por exemplo, dentro de 1 hora em 2 GPUs), ele permite um desempenho de raciocínio como 43,33% de Pass@1 no AIME24 e 90% de Pass@1 no AMC23 por apenas cerca de \$1 adicional. Surpreendentemente, as habilidades de raciocínio extraídas por meio de SAEs são potencialmente generalizáveis e modulares. Generalidade significa que habilidades extraídas de um conjunto de dados ainda elevam o desempenho em um corpus maior e sobreposto. Modularidade significa que habilidades extraídas de Qwen ou Qwen-Math podem ser anexadas ao modelo R1-Distill em tempo de teste, sem qualquer retreinamento, e gerar ganhos comparáveis. Ablações extensivas validam essas descobertas, e todos os artefatos são totalmente disponibilizados como código aberto.
English
How cost-effectively can we elicit strong reasoning in language models by
leveraging their underlying representations? We answer this question with Resa,
a family of 1.5B reasoning models trained via a novel and efficient sparse
autoencoder tuning (SAE-Tuning) procedure. This method first trains an SAE to
capture reasoning abilities from a source model, and then uses the trained SAE
to guide a standard supervised fine-tuning process to elicit such abilities in
a target model, all using verified question-answer data without any reasoning
traces. Notably, when applied to certain base models before further RL
post-training, SAE-Tuning retains >97% of its RL-trained counterpart's
reasoning performance while reducing training costs by >2000x to roughly \1
and training time by >450x to around 20 minutes. Furthermore, when applied to
lightly RL-trained models (e.g., within 1 hour on 2 GPUs), it enables reasoning
performance such as 43.33% Pass@1 on AIME24 and 90% Pass@1 on AMC23 for only
around 1 additional cost. Surprisingly, the reasoning abilities extracted via
SAEs are potentially both generalizable and modular. Generality means abilities
extracted from one dataset still elevate performance on a larger and
overlapping corpus. Modularity means abilities extracted from Qwen or Qwen-Math
can be attached to the R1-Distill model at test time, without any retraining,
and yield comparable gains. Extensive ablations validate these findings and all
artifacts are fully open-sourced.