ChatPaper.aiChatPaper

Resa: Transparente Denkmodelle mittels SAEs

Resa: Transparent Reasoning Models via SAEs

June 11, 2025
Autoren: Shangshang Wang, Julian Asilis, Ömer Faruk Akgül, Enes Burak Bilgin, Ollie Liu, Deqing Fu, Willie Neiswanger
cs.AI

Zusammenfassung

Wie kosteneffektiv können wir starke Argumentationsfähigkeiten in Sprachmodellen durch die Nutzung ihrer zugrunde liegenden Repräsentationen hervorrufen? Wir beantworten diese Frage mit Resa, einer Familie von 1,5B-Argumentationsmodellen, die durch ein neuartiges und effizientes Sparse-Autoencoder-Tuning-Verfahren (SAE-Tuning) trainiert wurden. Diese Methode trainiert zunächst einen SAE, um Argumentationsfähigkeiten aus einem Quellmodell zu erfassen, und verwendet dann den trainierten SAE, um einen standardmäßigen überwachten Feinabstimmungsprozess zu leiten, um solche Fähigkeiten in einem Zielmodell hervorzurufen – alles unter Verwendung von verifizierten Frage-Antwort-Daten ohne jegliche Argumentationsspuren. Bemerkenswerterweise behält SAE-Tuning, wenn es auf bestimmte Basismodelle vor weiterem RL-Nachtraining angewendet wird, >97 % der Argumentationsleistung seines RL-trainierten Gegenstücks bei, während die Trainingskosten um >2000x auf etwa \1 und die Trainingszeit um >450x auf rund 20 Minuten reduziert werden. Darüber hinaus ermöglicht es, wenn es auf leicht RL-trainierte Modelle angewendet wird (z. B. innerhalb von 1 Stunde auf 2 GPUs), eine Argumentationsleistung wie 43,33 % Pass@1 auf AIME24 und 90 % Pass@1 auf AMC23 für nur etwa 1 zusätzlichen Kostenaufwand. Überraschenderweise sind die durch SAEs extrahierten Argumentationsfähigkeiten potenziell sowohl verallgemeinerbar als auch modular. Verallgemeinerbarkeit bedeutet, dass Fähigkeiten, die aus einem Datensatz extrahiert wurden, die Leistung auf einem größeren und überlappenden Korpus weiterhin steigern. Modularität bedeutet, dass Fähigkeiten, die aus Qwen oder Qwen-Math extrahiert wurden, zur Testzeit ohne erneutes Training an das R1-Distill-Modell angehängt werden können und vergleichbare Gewinne erzielen. Umfangreiche Ablationen validieren diese Ergebnisse, und alle Artefakte sind vollständig quelloffen.
English
How cost-effectively can we elicit strong reasoning in language models by leveraging their underlying representations? We answer this question with Resa, a family of 1.5B reasoning models trained via a novel and efficient sparse autoencoder tuning (SAE-Tuning) procedure. This method first trains an SAE to capture reasoning abilities from a source model, and then uses the trained SAE to guide a standard supervised fine-tuning process to elicit such abilities in a target model, all using verified question-answer data without any reasoning traces. Notably, when applied to certain base models before further RL post-training, SAE-Tuning retains >97% of its RL-trained counterpart's reasoning performance while reducing training costs by >2000x to roughly \1 and training time by >450x to around 20 minutes. Furthermore, when applied to lightly RL-trained models (e.g., within 1 hour on 2 GPUs), it enables reasoning performance such as 43.33% Pass@1 on AIME24 and 90% Pass@1 on AMC23 for only around 1 additional cost. Surprisingly, the reasoning abilities extracted via SAEs are potentially both generalizable and modular. Generality means abilities extracted from one dataset still elevate performance on a larger and overlapping corpus. Modularity means abilities extracted from Qwen or Qwen-Math can be attached to the R1-Distill model at test time, without any retraining, and yield comparable gains. Extensive ablations validate these findings and all artifacts are fully open-sourced.
PDF162June 13, 2025