Guidage de l'ingénierie des données de post-entraînement des LLM à l'aide des représentations internes du modèle issues d'autoencodeurs parcimonieux

Résumé

Les composants internes des modèles codent une information riche sur la manière dont un grand modèle de langage (LLM) traite ses données d'apprentissage ; cependant, l'ingénierie des données post-entraînement repose largement sur des signaux externes et ignore les signaux intrinsèques riches contenus dans ces composants internes. Nous proposons SAERL, un cadre d'ingénierie des données pour l'apprentissage par renforcement (RL) des LLM. Il modélise trois propriétés intrinsèques des données – la diversité, la difficulté et la qualité – à l'aide des composants internes extraits par autoencodeur parcimonieux (SAE), un outil avancé d'interprétabilité mécaniste. Chaque propriété fonde une opération concrète d'ingénierie des données : un clustering dans l'espace SAE avec un mélange modéré par lots pour le contrôle de la diversité des lots, un proxy de difficulté pour un ordonnancement curriculaire facile-à-difficile, et une sonde de qualité pour le filtrage des données. SAERL améliore la précision moyenne de 3,00 % par rapport à GRPO vanille et atteint la précision cible avec 20 % d'étapes d'entraînement en moins sur Qwen2.5-Math-1.5B, avec des gains constants à travers les échelles de modèle et les algorithmes de RL. Les expériences montrent que le SAE se transfère efficacement entre familles et échelles de modèles, servant d'outil d'ingénierie des données léger et réutilisable. Ces résultats démontrent que les composants internes des modèles constituent une source de signaux puissante et pratique pour l'ingénierie des données post-entraînement.

English

Model internals encode rich information about how a large language model (LLM) processes its training data; however, post-training data engineering largely relies on external signals and ignores rich intrinsic signals lying in model internals. We propose SAERL, a data engineering framework for LLM reinforcement learning (RL). It models three intrinsic data properties: diversity, difficulty, and quality, using model internals extracted with Sparse Autoencoder (SAE), an advanced mechanistic interpretability tool. Each property grounds a concrete data engineering operation: SAE-space clustering with moderate batch mixing for batch diversity control, a difficulty proxy for easy-to-hard curriculum ordering, and a quality probe for data filtering. SAERL improves average accuracy by 3.00% over vanilla GRPO and reaches target accuracy with 20% fewer training steps on Qwen2.5-Math-1.5B, with consistent gains across model scales and RL algorithms. Experiments show that SAE transfers effectively across model families and scales, serving as a lightweight and reusable data engineering tool. These results demonstrate that model internals are a powerful and practical source of signals for post-training data engineering.