Resa: Modelos de Razonamiento Transparente mediante SAEs
Resa: Transparent Reasoning Models via SAEs
June 11, 2025
Autores: Shangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Deqing Fu, Willie Neiswanger
cs.AI
Resumen
¿Qué tan rentable es elicitar un razonamiento sólido en modelos de lenguaje aprovechando sus representaciones subyacentes? Respondemos a esta pregunta con Resa, una familia de modelos de razonamiento de 1.5B entrenados mediante un novedoso y eficiente procedimiento de ajuste de autoencoder disperso (SAE-Tuning). Este método primero entrena un SAE para capturar habilidades de razonamiento de un modelo fuente y luego utiliza el SAE entrenado para guiar un proceso de ajuste fino supervisado estándar, con el fin de elicitar dichas habilidades en un modelo objetivo, todo utilizando datos verificados de preguntas y respuestas sin rastros de razonamiento. Notablemente, cuando se aplica a ciertos modelos base antes de un entrenamiento adicional con aprendizaje por refuerzo (RL), SAE-Tuning retiene más del 97% del rendimiento de razonamiento de su contraparte entrenada con RL, mientras reduce los costos de entrenamiento en más de 2000 veces a aproximadamente \$1 y el tiempo de entrenamiento en más de 450 veces a alrededor de 20 minutos. Además, cuando se aplica a modelos ligeramente entrenados con RL (por ejemplo, en 1 hora con 2 GPUs), permite un rendimiento de razonamiento como 43.33% Pass@1 en AIME24 y 90% Pass@1 en AMC23 por un costo adicional de aproximadamente \$1. Sorprendentemente, las habilidades de razonamiento extraídas mediante SAEs son potencialmente generalizables y modulares. La generalidad significa que las habilidades extraídas de un conjunto de datos aún mejoran el rendimiento en un corpus más grande y superpuesto. La modularidad significa que las habilidades extraídas de Qwen o Qwen-Math pueden adjuntarse al modelo R1-Distill en tiempo de prueba, sin necesidad de reentrenamiento, y producir ganancias comparables. Ablaciones extensas validan estos hallazgos y todos los artefactos están completamente abiertos al público.
English
How cost-effectively can we elicit strong reasoning in language models by
leveraging their underlying representations? We answer this question with Resa,
a family of 1.5B reasoning models trained via a novel and efficient sparse
autoencoder tuning (SAE-Tuning) procedure. This method first trains an SAE to
capture reasoning abilities from a source model, and then uses the trained SAE
to guide a standard supervised fine-tuning process to elicit such abilities in
a target model, all using verified question-answer data without any reasoning
traces. Notably, when applied to certain base models before further RL
post-training, SAE-Tuning retains >97% of its RL-trained counterpart's
reasoning performance while reducing training costs by >2000x to roughly \1
and training time by >450x to around 20 minutes. Furthermore, when applied to
lightly RL-trained models (e.g., within 1 hour on 2 GPUs), it enables reasoning
performance such as 43.33% Pass@1 on AIME24 and 90% Pass@1 on AMC23 for only
around 1 additional cost. Surprisingly, the reasoning abilities extracted via
SAEs are potentially both generalizable and modular. Generality means abilities
extracted from one dataset still elevate performance on a larger and
overlapping corpus. Modularity means abilities extracted from Qwen or Qwen-Math
can be attached to the R1-Distill model at test time, without any retraining,
and yield comparable gains. Extensive ablations validate these findings and all
artifacts are fully open-sourced.