Guiando la ingeniería de datos de post-entrenamiento de LLM con los internos del modelo de autoencoders dispersos

Resumen

Los componentes internos del modelo codifican información detallada sobre cómo un modelo de lenguaje grande (LLM) procesa sus datos de entrenamiento; sin embargo, la ingeniería de datos post-entrenamiento se basa en gran medida en señales externas e ignora las ricas señales intrínsecas presentes en los internos del modelo. Proponemos SAERL, un marco de ingeniería de datos para el aprendizaje por refuerzo (RL) de LLM. Este modela tres propiedades intrínsecas de los datos —diversidad, dificultad y calidad— utilizando internos del modelo extraídos con un Autoencoder Disperso (SAE), una herramienta avanzada de interpretabilidad mecanicista. Cada propiedad fundamenta una operación concreta de ingeniería de datos: agrupamiento en el espacio del SAE con mezcla moderada de lotes para controlar la diversidad en los lotes, una proxy de dificultad para el ordenamiento curricular de fácil a difícil, y una sonda de calidad para el filtrado de datos. SAERL mejora la precisión promedio en un 3,00% respecto a GRPO estándar y alcanza la precisión objetivo con un 20% menos de pasos de entrenamiento en Qwen2.5-Math-1.5B, con ganancias consistentes en distintas escalas de modelo y algoritmos de RL. Los experimentos muestran que el SAE se transfiere eficazmente entre familias y escalas de modelo, funcionando como una herramienta de ingeniería de datos ligera y reutilizable. Estos resultados demuestran que los internos del modelo constituyen una fuente poderosa y práctica de señales para la ingeniería de datos post-entrenamiento.

English

Model internals encode rich information about how a large language model (LLM) processes its training data; however, post-training data engineering largely relies on external signals and ignores rich intrinsic signals lying in model internals. We propose SAERL, a data engineering framework for LLM reinforcement learning (RL). It models three intrinsic data properties: diversity, difficulty, and quality, using model internals extracted with Sparse Autoencoder (SAE), an advanced mechanistic interpretability tool. Each property grounds a concrete data engineering operation: SAE-space clustering with moderate batch mixing for batch diversity control, a difficulty proxy for easy-to-hard curriculum ordering, and a quality probe for data filtering. SAERL improves average accuracy by 3.00% over vanilla GRPO and reaches target accuracy with 20% fewer training steps on Qwen2.5-Math-1.5B, with consistent gains across model scales and RL algorithms. Experiments show that SAE transfers effectively across model families and scales, serving as a lightweight and reusable data engineering tool. These results demonstrate that model internals are a powerful and practical source of signals for post-training data engineering.