Resa : Modèles de raisonnement transparent via SAEs
Resa: Transparent Reasoning Models via SAEs
June 11, 2025
Auteurs: Shangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Deqing Fu, Willie Neiswanger
cs.AI
Résumé
Comment pouvons-nous susciter efficacement un raisonnement solide dans les modèles de langage en exploitant leurs représentations sous-jacentes ? Nous répondons à cette question avec Resa, une famille de modèles de raisonnement de 1,5 milliard de paramètres entraînés via une nouvelle procédure efficace de réglage par autoencodeur parcimonieux (SAE-Tuning). Cette méthode commence par entraîner un SAE pour capturer les capacités de raisonnement d'un modèle source, puis utilise le SAE entraîné pour guider un processus standard de fine-tuning supervisé afin de susciter ces capacités dans un modèle cible, le tout en utilisant des données vérifiées de questions-réponses sans aucune trace de raisonnement. Notamment, lorsqu'elle est appliquée à certains modèles de base avant un post-entraînement par apprentissage par renforcement (RL), la méthode SAE-Tuning conserve plus de 97 % des performances de raisonnement de son homologue entraîné par RL tout en réduisant les coûts d'entraînement de plus de 2000 fois, à environ 1 euro, et le temps d'entraînement de plus de 450 fois, à environ 20 minutes. De plus, lorsqu'elle est appliquée à des modèles légèrement entraînés par RL (par exemple, en moins d'une heure sur 2 GPU), elle permet d'atteindre des performances de raisonnement telles que 43,33 % de Pass@1 sur AIME24 et 90 % de Pass@1 sur AMC23 pour un coût supplémentaire d'environ 1 euro. Étonnamment, les capacités de raisonnement extraites via les SAE sont potentiellement à la fois généralisables et modulaires. La généralité signifie que les capacités extraites d'un ensemble de données améliorent encore les performances sur un corpus plus large et chevauchant. La modularité signifie que les capacités extraites de Qwen ou Qwen-Math peuvent être attachées au modèle R1-Distill au moment du test, sans aucun réentraînement, et produire des gains comparables. Des ablations approfondies valident ces résultats, et tous les artefacts sont entièrement open-source.
English
How cost-effectively can we elicit strong reasoning in language models by
leveraging their underlying representations? We answer this question with Resa,
a family of 1.5B reasoning models trained via a novel and efficient sparse
autoencoder tuning (SAE-Tuning) procedure. This method first trains an SAE to
capture reasoning abilities from a source model, and then uses the trained SAE
to guide a standard supervised fine-tuning process to elicit such abilities in
a target model, all using verified question-answer data without any reasoning
traces. Notably, when applied to certain base models before further RL
post-training, SAE-Tuning retains >97% of its RL-trained counterpart's
reasoning performance while reducing training costs by >2000x to roughly \1
and training time by >450x to around 20 minutes. Furthermore, when applied to
lightly RL-trained models (e.g., within 1 hour on 2 GPUs), it enables reasoning
performance such as 43.33% Pass@1 on AIME24 and 90% Pass@1 on AMC23 for only
around 1 additional cost. Surprisingly, the reasoning abilities extracted via
SAEs are potentially both generalizable and modular. Generality means abilities
extracted from one dataset still elevate performance on a larger and
overlapping corpus. Modularity means abilities extracted from Qwen or Qwen-Math
can be attached to the R1-Distill model at test time, without any retraining,
and yield comparable gains. Extensive ablations validate these findings and all
artifacts are fully open-sourced.