Steuerung des LLM-Post-Training Data Engineering mittels Modellinterna aus Sparse Autoencodern

Zusammenfassung

Modellinterne kodieren umfangreiche Informationen darüber, wie ein großes Sprachmodell (Large Language Model, LLM) seine Trainingsdaten verarbeitet; allerdings stützt sich die Datenaufbereitung nach dem Training weitgehend auf externe Signale und ignoriert die reichhaltigen intrinsischen Signale, die in den Modellinternen liegen. Wir schlagen SAERL vor, ein Framework zur Datenaufbereitung für das Reinforcement Learning (RL) von LLMs. Es modelliert drei intrinsische Dateneigenschaften – Diversität, Schwierigkeit und Qualität – unter Verwendung von Modellinternen, die mit einem Sparse Autoencoder (SAE), einem fortschrittlichen Werkzeug der mechanistischen Interpretierbarkeit, extrahiert wurden. Jede Eigenschaft begründet eine konkrete Datenaufbereitungsoperation: SAE-Raum-Clustering mit moderater Batch-Mischung zur Batch-Diversitätskontrolle, ein Schwierigkeitsproxy für eine Easy-to-Hard-Curriculum-Reihenfolge sowie eine Qualitätssonde zur Datenfilterung. SAERL verbessert die durchschnittliche Genauigkeit um 3,00% gegenüber Vanilla-GRPO und erreicht die Zielgenauigkeit mit 20% weniger Trainingsschritten auf Qwen2.5-Math-1.5B, mit konsistenten Verbesserungen über Modellskalen und RL-Algorithmen hinweg. Experimente zeigen, dass SAE effektiv über Modellfamilien und -skalen hinweg übertragen werden kann und als leichtgewichtiges und wiederverwendbares Werkzeug zur Datenaufbereitung dient. Diese Ergebnisse belegen, dass Modellinterne eine leistungsstarke und praktische Signalquelle für die Datenaufbereitung nach dem Training darstellen.

English

Model internals encode rich information about how a large language model (LLM) processes its training data; however, post-training data engineering largely relies on external signals and ignores rich intrinsic signals lying in model internals. We propose SAERL, a data engineering framework for LLM reinforcement learning (RL). It models three intrinsic data properties: diversity, difficulty, and quality, using model internals extracted with Sparse Autoencoder (SAE), an advanced mechanistic interpretability tool. Each property grounds a concrete data engineering operation: SAE-space clustering with moderate batch mixing for batch diversity control, a difficulty proxy for easy-to-hard curriculum ordering, and a quality probe for data filtering. SAERL improves average accuracy by 3.00% over vanilla GRPO and reaches target accuracy with 20% fewer training steps on Qwen2.5-Math-1.5B, with consistent gains across model scales and RL algorithms. Experiments show that SAE transfers effectively across model families and scales, serving as a lightweight and reusable data engineering tool. These results demonstrate that model internals are a powerful and practical source of signals for post-training data engineering.