Resa: Modelos de Raciocínio Transparente via SAEs

Resumo

Como podemos eliciar de forma custo-efetiva um raciocínio robusto em modelos de linguagem, aproveitando suas representações subjacentes? Respondemos a essa pergunta com Resa, uma família de modelos de raciocínio de 1,5B treinados por meio de um novo e eficiente procedimento de ajuste de autoencoder esparso (SAE-Tuning). Esse método primeiro treina um SAE para capturar habilidades de raciocínio de um modelo fonte e, em seguida, usa o SAE treinado para guiar um processo padrão de ajuste fino supervisionado, a fim de eliciar tais habilidades em um modelo alvo, tudo utilizando dados verificados de perguntas e respostas sem qualquer rastro de raciocínio. Notavelmente, quando aplicado a certos modelos base antes de um pós-treinamento adicional com RL, o SAE-Tuning mantém mais de 97% do desempenho de raciocínio de sua contraparte treinada com RL, enquanto reduz os custos de treinamento em mais de 2000x para aproximadamente \$1 e o tempo de treinamento em mais de 450x para cerca de 20 minutos. Além disso, quando aplicado a modelos levemente treinados com RL (por exemplo, dentro de 1 hora em 2 GPUs), ele permite um desempenho de raciocínio como 43,33% de Pass@1 no AIME24 e 90% de Pass@1 no AMC23 por apenas cerca de \$1 adicional. Surpreendentemente, as habilidades de raciocínio extraídas por meio de SAEs são potencialmente generalizáveis e modulares. Generalidade significa que habilidades extraídas de um conjunto de dados ainda elevam o desempenho em um corpus maior e sobreposto. Modularidade significa que habilidades extraídas de Qwen ou Qwen-Math podem ser anexadas ao modelo R1-Distill em tempo de teste, sem qualquer retreinamento, e gerar ganhos comparáveis. Ablações extensivas validam essas descobertas, e todos os artefatos são totalmente disponibilizados como código aberto.

English

How cost-effectively can we elicit strong reasoning in language models by leveraging their underlying representations? We answer this question with Resa, a family of 1.5B reasoning models trained via a novel and efficient sparse autoencoder tuning (SAE-Tuning) procedure. This method first trains an SAE to capture reasoning abilities from a source model, and then uses the trained SAE to guide a standard supervised fine-tuning process to elicit such abilities in a target model, all using verified question-answer data without any reasoning traces. Notably, when applied to certain base models before further RL post-training, SAE-Tuning retains >97% of its RL-trained counterpart's reasoning performance while reducing training costs by >2000x to roughly \1 and training time by >450x to around 20 minutes. Furthermore, when applied to lightly RL-trained models (e.g., within 1 hour on 2 GPUs), it enables reasoning performance such as 43.33% Pass@1 on AIME24 and 90% Pass@1 on AMC23 for only around 1 additional cost. Surprisingly, the reasoning abilities extracted via SAEs are potentially both generalizable and modular. Generality means abilities extracted from one dataset still elevate performance on a larger and overlapping corpus. Modularity means abilities extracted from Qwen or Qwen-Math can be attached to the R1-Distill model at test time, without any retraining, and yield comparable gains. Extensive ablations validate these findings and all artifacts are fully open-sourced.

Resa: Modelos de Raciocínio Transparente via SAEs

Resa: Transparent Reasoning Models via SAEs

Resumo

Support