ChatPaper.aiChatPaper

Resa: Transparante Redeneermodellen via SAE's

Resa: Transparent Reasoning Models via SAEs

June 11, 2025
Auteurs: Shangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Deqing Fu, Willie Neiswanger
cs.AI

Samenvatting

Hoe kosteneffectief kunnen we sterk redeneervermogen in taalmodelen opwekken door gebruik te maken van hun onderliggende representaties? We beantwoorden deze vraag met Resa, een familie van 1,5B redeneermodellen die zijn getraind via een nieuwe en efficiënte sparse autoencoder-tuning (SAE-Tuning) procedure. Deze methode traint eerst een SAE om redeneervermogen vast te leggen vanuit een bronmodel, en gebruikt vervolgens de getrainde SAE om een standaard supervised fine-tuning proces te begeleiden om dergelijk vermogen op te wekken in een doelmodel, waarbij uitsluitend gebruik wordt gemaakt van geverifieerde vraag-antwoordgegevens zonder redeneersporen. Opmerkelijk is dat, wanneer toegepast op bepaalde basismodellen vóór verdere RL-post-training, SAE-Tuning >97% van het redeneervermogen van zijn RL-getrainde tegenhanger behoudt, terwijl de trainingskosten met >2000x worden verlaagd tot ongeveer \$1 en de trainingsduur met >450x wordt teruggebracht tot ongeveer 20 minuten. Bovendien, wanneer toegepast op licht RL-getrainde modellen (bijvoorbeeld binnen 1 uur op 2 GPU's), maakt het redeneervermogen mogelijk zoals 43,33% Pass@1 op AIME24 en 90% Pass@1 op AMC23 voor slechts ongeveer 1 extra kosten. Verrassend genoeg zijn de redeneervermogens die via SAE's worden geëxtraheerd mogelijk zowel generaliseerbaar als modulair. Generaliseerbaarheid betekent dat vermogens die uit één dataset zijn geëxtraheerd, de prestaties op een groter en overlappend corpus nog steeds verbeteren. Modulariteit betekent dat vermogens die uit Qwen of Qwen-Math zijn geëxtraheerd, tijdens de testfase aan het R1-Distill model kunnen worden gekoppeld, zonder enige hertraining, en vergelijkbare verbeteringen opleveren. Uitgebreide ablatie-experimenten valideren deze bevindingen en alle artefacten zijn volledig open-source beschikbaar.
English
How cost-effectively can we elicit strong reasoning in language models by leveraging their underlying representations? We answer this question with Resa, a family of 1.5B reasoning models trained via a novel and efficient sparse autoencoder tuning (SAE-Tuning) procedure. This method first trains an SAE to capture reasoning abilities from a source model, and then uses the trained SAE to guide a standard supervised fine-tuning process to elicit such abilities in a target model, all using verified question-answer data without any reasoning traces. Notably, when applied to certain base models before further RL post-training, SAE-Tuning retains >97% of its RL-trained counterpart's reasoning performance while reducing training costs by >2000x to roughly \1 and training time by >450x to around 20 minutes. Furthermore, when applied to lightly RL-trained models (e.g., within 1 hour on 2 GPUs), it enables reasoning performance such as 43.33% Pass@1 on AIME24 and 90% Pass@1 on AMC23 for only around 1 additional cost. Surprisingly, the reasoning abilities extracted via SAEs are potentially both generalizable and modular. Generality means abilities extracted from one dataset still elevate performance on a larger and overlapping corpus. Modularity means abilities extracted from Qwen or Qwen-Math can be attached to the R1-Distill model at test time, without any retraining, and yield comparable gains. Extensive ablations validate these findings and all artifacts are fully open-sourced.
PDF182June 13, 2025