Resa: SAE를 통한 투명한 추론 모델
Resa: Transparent Reasoning Models via SAEs
June 11, 2025
저자: Shangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Deqing Fu, Willie Neiswanger
cs.AI
초록
언어 모델의 내재적 표현을 활용하여 얼마나 비용 효율적으로 강력한 추론 능력을 이끌어낼 수 있을까? 우리는 이 질문에 Resa라는 1.5B 규모의 추론 모델 패밀리로 답한다. 이 모델은 새로운 효율적인 희소 오토인코더 튜닝(SAE-Tuning) 절차를 통해 학습되었다. 이 방법은 먼저 SAE를 학습시켜 소스 모델의 추론 능력을 포착한 다음, 학습된 SAE를 사용하여 검증된 질문-답변 데이터만을 활용해 표준 지도 미세 조정 과정을 통해 타겟 모델에서 이러한 능력을 이끌어낸다. 특히, 추가 RL 사후 학습 전 특정 기본 모델에 적용할 경우, SAE-Tuning은 RL 학습 대비 모델의 추론 성능을 97% 이상 유지하면서도 학습 비용을 2000배 이상 절감하여 약 \$1로, 학습 시간을 450배 이상 단축하여 약 20분으로 줄인다. 또한, 가볍게 RL 학습된 모델(예: 2개의 GPU에서 1시간 이내)에 적용할 경우, 약 1의 추가 비용만으로 AIME24에서 43.33% Pass@1, AMC23에서 90% Pass@1와 같은 추론 성능을 달성한다. 놀랍게도, SAE를 통해 추출된 추론 능력은 일반화 가능하고 모듈화될 가능성이 있다. 일반화는 하나의 데이터셋에서 추출된 능력이 더 크고 중복된 코퍼스에서도 성능을 향상시킨다는 것을 의미한다. 모듈화는 Qwen 또는 Qwen-Math에서 추출된 능력을 테스트 시 R1-Distill 모델에 추가 학습 없이 부착할 수 있으며, 이는 비슷한 성능 향상을 가져온다는 것을 의미한다. 광범위한 실험을 통해 이러한 발견을 검증하였으며, 모든 아티팩트는 완전히 오픈소스로 공개되었다.
English
How cost-effectively can we elicit strong reasoning in language models by
leveraging their underlying representations? We answer this question with Resa,
a family of 1.5B reasoning models trained via a novel and efficient sparse
autoencoder tuning (SAE-Tuning) procedure. This method first trains an SAE to
capture reasoning abilities from a source model, and then uses the trained SAE
to guide a standard supervised fine-tuning process to elicit such abilities in
a target model, all using verified question-answer data without any reasoning
traces. Notably, when applied to certain base models before further RL
post-training, SAE-Tuning retains >97% of its RL-trained counterpart's
reasoning performance while reducing training costs by >2000x to roughly \1
and training time by >450x to around 20 minutes. Furthermore, when applied to
lightly RL-trained models (e.g., within 1 hour on 2 GPUs), it enables reasoning
performance such as 43.33% Pass@1 on AIME24 and 90% Pass@1 on AMC23 for only
around 1 additional cost. Surprisingly, the reasoning abilities extracted via
SAEs are potentially both generalizable and modular. Generality means abilities
extracted from one dataset still elevate performance on a larger and
overlapping corpus. Modularity means abilities extracted from Qwen or Qwen-Math
can be attached to the R1-Distill model at test time, without any retraining,
and yield comparable gains. Extensive ablations validate these findings and all
artifacts are fully open-sourced.