Resa: Прозрачные модели рассуждений с использованием SAE
Resa: Transparent Reasoning Models via SAEs
June 11, 2025
Авторы: Shangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Deqing Fu, Willie Neiswanger
cs.AI
Аннотация
Насколько экономически эффективно можно стимулировать сильные рассуждения в языковых моделях, используя их внутренние представления? Мы отвечаем на этот вопрос с помощью Resa — семейства моделей для рассуждений объемом 1,5 млрд параметров, обученных с использованием нового и эффективного метода настройки разреженных автокодировщиков (SAE-Tuning). Этот метод сначала обучает SAE для извлечения способностей к рассуждению из исходной модели, а затем использует обученный SAE для управления стандартным процессом тонкой настройки с учителем, чтобы стимулировать такие способности в целевой модели, используя только проверенные данные вопросов и ответов без следов рассуждений. Примечательно, что при применении к определенным базовым моделям перед дальнейшей пост-обучением с подкреплением (RL) SAE-Tuning сохраняет более 97% производительности рассуждений по сравнению с RL-обученными аналогами, при этом сокращая затраты на обучение более чем в 2000 раз (до примерно \$1) и время обучения более чем в 450 раз (до около 20 минут). Более того, при применении к моделям, слегка обученным с подкреплением (например, в течение 1 часа на 2 GPU), он обеспечивает производительность рассуждений, такую как 43,33% Pass@1 на AIME24 и 90% Pass@1 на AMC23, при дополнительных затратах всего около \$1. Удивительно, но способности к рассуждениям, извлеченные с помощью SAE, потенциально являются как обобщаемыми, так и модульными. Обобщаемость означает, что способности, извлеченные из одного набора данных, все еще повышают производительность на более крупном и пересекающемся корпусе. Модульность означает, что способности, извлеченные из Qwen или Qwen-Math, могут быть присоединены к модели R1-Distill во время тестирования без какого-либо переобучения и дают сопоставимые улучшения. Обширные эксперименты подтверждают эти результаты, и все материалы полностью открыты для использования.
English
How cost-effectively can we elicit strong reasoning in language models by
leveraging their underlying representations? We answer this question with Resa,
a family of 1.5B reasoning models trained via a novel and efficient sparse
autoencoder tuning (SAE-Tuning) procedure. This method first trains an SAE to
capture reasoning abilities from a source model, and then uses the trained SAE
to guide a standard supervised fine-tuning process to elicit such abilities in
a target model, all using verified question-answer data without any reasoning
traces. Notably, when applied to certain base models before further RL
post-training, SAE-Tuning retains >97% of its RL-trained counterpart's
reasoning performance while reducing training costs by >2000x to roughly \1
and training time by >450x to around 20 minutes. Furthermore, when applied to
lightly RL-trained models (e.g., within 1 hour on 2 GPUs), it enables reasoning
performance such as 43.33% Pass@1 on AIME24 and 90% Pass@1 on AMC23 for only
around 1 additional cost. Surprisingly, the reasoning abilities extracted via
SAEs are potentially both generalizable and modular. Generality means abilities
extracted from one dataset still elevate performance on a larger and
overlapping corpus. Modularity means abilities extracted from Qwen or Qwen-Math
can be attached to the R1-Distill model at test time, without any retraining,
and yield comparable gains. Extensive ablations validate these findings and all
artifacts are fully open-sourced.