Resa: Transparante Redeneermodellen via SAE's
Resa: Transparent Reasoning Models via SAEs
June 11, 2025
Auteurs: Shangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Deqing Fu, Willie Neiswanger
cs.AI
Samenvatting
Hoe kosteneffectief kunnen we sterk redeneervermogen in taalmodelen opwekken door gebruik te maken van hun onderliggende representaties? We beantwoorden deze vraag met Resa, een familie van 1,5B redeneermodellen die zijn getraind via een nieuwe en efficiënte sparse autoencoder-tuning (SAE-Tuning) procedure. Deze methode traint eerst een SAE om redeneervermogen vast te leggen vanuit een bronmodel, en gebruikt vervolgens de getrainde SAE om een standaard supervised fine-tuning proces te begeleiden om dergelijk vermogen op te wekken in een doelmodel, waarbij uitsluitend gebruik wordt gemaakt van geverifieerde vraag-antwoordgegevens zonder redeneersporen. Opmerkelijk is dat, wanneer toegepast op bepaalde basismodellen vóór verdere RL-post-training, SAE-Tuning >97% van het redeneervermogen van zijn RL-getrainde tegenhanger behoudt, terwijl de trainingskosten met >2000x worden verlaagd tot ongeveer \$1 en de trainingsduur met >450x wordt teruggebracht tot ongeveer 20 minuten. Bovendien, wanneer toegepast op licht RL-getrainde modellen (bijvoorbeeld binnen 1 uur op 2 GPU's), maakt het redeneervermogen mogelijk zoals 43,33% Pass@1 op AIME24 en 90% Pass@1 op AMC23 voor slechts ongeveer 1 extra kosten. Verrassend genoeg zijn de redeneervermogens die via SAE's worden geëxtraheerd mogelijk zowel generaliseerbaar als modulair. Generaliseerbaarheid betekent dat vermogens die uit één dataset zijn geëxtraheerd, de prestaties op een groter en overlappend corpus nog steeds verbeteren. Modulariteit betekent dat vermogens die uit Qwen of Qwen-Math zijn geëxtraheerd, tijdens de testfase aan het R1-Distill model kunnen worden gekoppeld, zonder enige hertraining, en vergelijkbare verbeteringen opleveren. Uitgebreide ablatie-experimenten valideren deze bevindingen en alle artefacten zijn volledig open-source beschikbaar.
English
How cost-effectively can we elicit strong reasoning in language models by
leveraging their underlying representations? We answer this question with Resa,
a family of 1.5B reasoning models trained via a novel and efficient sparse
autoencoder tuning (SAE-Tuning) procedure. This method first trains an SAE to
capture reasoning abilities from a source model, and then uses the trained SAE
to guide a standard supervised fine-tuning process to elicit such abilities in
a target model, all using verified question-answer data without any reasoning
traces. Notably, when applied to certain base models before further RL
post-training, SAE-Tuning retains >97% of its RL-trained counterpart's
reasoning performance while reducing training costs by >2000x to roughly \1
and training time by >450x to around 20 minutes. Furthermore, when applied to
lightly RL-trained models (e.g., within 1 hour on 2 GPUs), it enables reasoning
performance such as 43.33% Pass@1 on AIME24 and 90% Pass@1 on AMC23 for only
around 1 additional cost. Surprisingly, the reasoning abilities extracted via
SAEs are potentially both generalizable and modular. Generality means abilities
extracted from one dataset still elevate performance on a larger and
overlapping corpus. Modularity means abilities extracted from Qwen or Qwen-Math
can be attached to the R1-Distill model at test time, without any retraining,
and yield comparable gains. Extensive ablations validate these findings and all
artifacts are fully open-sourced.