Resa: Прозрачные модели рассуждений с использованием SAE

Аннотация

Насколько экономически эффективно можно стимулировать сильные рассуждения в языковых моделях, используя их внутренние представления? Мы отвечаем на этот вопрос с помощью Resa — семейства моделей для рассуждений объемом 1,5 млрд параметров, обученных с использованием нового и эффективного метода настройки разреженных автокодировщиков (SAE-Tuning). Этот метод сначала обучает SAE для извлечения способностей к рассуждению из исходной модели, а затем использует обученный SAE для управления стандартным процессом тонкой настройки с учителем, чтобы стимулировать такие способности в целевой модели, используя только проверенные данные вопросов и ответов без следов рассуждений. Примечательно, что при применении к определенным базовым моделям перед дальнейшей пост-обучением с подкреплением (RL) SAE-Tuning сохраняет более 97% производительности рассуждений по сравнению с RL-обученными аналогами, при этом сокращая затраты на обучение более чем в 2000 раз (до примерно \$1) и время обучения более чем в 450 раз (до около 20 минут). Более того, при применении к моделям, слегка обученным с подкреплением (например, в течение 1 часа на 2 GPU), он обеспечивает производительность рассуждений, такую как 43,33% Pass@1 на AIME24 и 90% Pass@1 на AMC23, при дополнительных затратах всего около \$1. Удивительно, но способности к рассуждениям, извлеченные с помощью SAE, потенциально являются как обобщаемыми, так и модульными. Обобщаемость означает, что способности, извлеченные из одного набора данных, все еще повышают производительность на более крупном и пересекающемся корпусе. Модульность означает, что способности, извлеченные из Qwen или Qwen-Math, могут быть присоединены к модели R1-Distill во время тестирования без какого-либо переобучения и дают сопоставимые улучшения. Обширные эксперименты подтверждают эти результаты, и все материалы полностью открыты для использования.

English

How cost-effectively can we elicit strong reasoning in language models by leveraging their underlying representations? We answer this question with Resa, a family of 1.5B reasoning models trained via a novel and efficient sparse autoencoder tuning (SAE-Tuning) procedure. This method first trains an SAE to capture reasoning abilities from a source model, and then uses the trained SAE to guide a standard supervised fine-tuning process to elicit such abilities in a target model, all using verified question-answer data without any reasoning traces. Notably, when applied to certain base models before further RL post-training, SAE-Tuning retains >97% of its RL-trained counterpart's reasoning performance while reducing training costs by >2000x to roughly \1 and training time by >450x to around 20 minutes. Furthermore, when applied to lightly RL-trained models (e.g., within 1 hour on 2 GPUs), it enables reasoning performance such as 43.33% Pass@1 on AIME24 and 90% Pass@1 on AMC23 for only around 1 additional cost. Surprisingly, the reasoning abilities extracted via SAEs are potentially both generalizable and modular. Generality means abilities extracted from one dataset still elevate performance on a larger and overlapping corpus. Modularity means abilities extracted from Qwen or Qwen-Math can be attached to the R1-Distill model at test time, without any retraining, and yield comparable gains. Extensive ablations validate these findings and all artifacts are fully open-sourced.

Resa: Прозрачные модели рассуждений с использованием SAE

Resa: Transparent Reasoning Models via SAEs

Аннотация

Support