Het begeleiden van LLM-post-training data-engineering met modelinterne toestanden uit sparse autoencoders

Samenvatting

Modelinterne structuren coderen rijke informatie over hoe een groot taalmodel (LLM) zijn trainingsdata verwerkt; echter, data-engineering na training vertrouwt grotendeels op externe signalen en negeert de rijke intrinsieke signalen die in de modelinterne structuren liggen. We stellen SAERL voor, een data-engineeringframework voor reinforcement learning (RL) van LLM's. Het modelleert drie intrinsieke data-eigenschappen: diversiteit, moeilijkheidsgraad en kwaliteit, door gebruik te maken van modelinterne structuren die zijn geëxtraheerd met een Sparse Autoencoder (SAE), een geavanceerd mechanistisch interpreteerbaarheidsinstrument. Elke eigenschap vormt de basis voor een concrete data-engineeringoperatie: clustering in de SAE-ruimte met gematigde batchmenging voor batchdiversiteitscontrole, een moeilijkheidsgraadproxy voor een curriculum van gemakkelijk naar moeilijk, en een kwaliteitssonde voor datafiltering. SAERL verbetert de gemiddelde nauwkeurigheid met 3,00% ten opzichte van standaard GRPO en bereikt de doelnauwkeurigheid met 20% minder trainingsstappen op Qwen2.5-Math-1.5B, met consistente winsten over modelschalen en RL-algoritmen. Experimenten tonen aan dat SAE effectief overdraagt tussen modelfamilies en -schalen, en dient als een lichtgewicht en herbruikbaar data-engineeringinstrument. Deze resultaten tonen aan dat modelinterne structuren een krachtige en praktische bron van signalen vormen voor data-engineering na training.

English

Model internals encode rich information about how a large language model (LLM) processes its training data; however, post-training data engineering largely relies on external signals and ignores rich intrinsic signals lying in model internals. We propose SAERL, a data engineering framework for LLM reinforcement learning (RL). It models three intrinsic data properties: diversity, difficulty, and quality, using model internals extracted with Sparse Autoencoder (SAE), an advanced mechanistic interpretability tool. Each property grounds a concrete data engineering operation: SAE-space clustering with moderate batch mixing for batch diversity control, a difficulty proxy for easy-to-hard curriculum ordering, and a quality probe for data filtering. SAERL improves average accuracy by 3.00% over vanilla GRPO and reaches target accuracy with 20% fewer training steps on Qwen2.5-Math-1.5B, with consistent gains across model scales and RL algorithms. Experiments show that SAE transfers effectively across model families and scales, serving as a lightweight and reusable data engineering tool. These results demonstrate that model internals are a powerful and practical source of signals for post-training data engineering.