Orientando a Engenharia de Dados de Pós-Treinamento de LLMs com Representações Internas de Modelos a partir de Autoencoders Esparsos

Resumo

Os internos do modelo codificam informações ricas sobre como um modelo de linguagem de grande porte (LLM) processa seus dados de treinamento; no entanto, a engenharia de dados pós-treinamento depende amplamente de sinais externos e ignora os sinais intrínsecos ricos presentes nos internos do modelo. Propomos o SAERL, uma estrutura de engenharia de dados para aprendizado por reforço (RL) em LLMs. Ele modela três propriedades intrínsecas dos dados: diversidade, dificuldade e qualidade, utilizando internos do modelo extraídos com Autoencoder Esparso (SAE), uma ferramenta avançada de interpretabilidade mecanicista. Cada propriedade fundamenta uma operação concreta de engenharia de dados: agrupamento no espaço SAE com mistura moderada de lotes para controle de diversidade de lotes, uma proxy de dificuldade para ordenação curricular do fácil ao difícil e uma sonda de qualidade para filtragem de dados. O SAERL melhora a precisão média em 3,00% em relação ao GRPO vanilla e atinge a precisão alvo com 20% menos etapas de treinamento no Qwen2.5-Math-1.5B, com ganhos consistentes em diferentes escalas de modelo e algoritmos de RL. Experimentos mostram que o SAE é transferido eficazmente entre famílias e escalas de modelo, funcionando como uma ferramenta de engenharia de dados leve e reutilizável. Esses resultados demonstram que os internos do modelo são uma fonte poderosa e prática de sinais para a engenharia de dados pós-treinamento.

English

Model internals encode rich information about how a large language model (LLM) processes its training data; however, post-training data engineering largely relies on external signals and ignores rich intrinsic signals lying in model internals. We propose SAERL, a data engineering framework for LLM reinforcement learning (RL). It models three intrinsic data properties: diversity, difficulty, and quality, using model internals extracted with Sparse Autoencoder (SAE), an advanced mechanistic interpretability tool. Each property grounds a concrete data engineering operation: SAE-space clustering with moderate batch mixing for batch diversity control, a difficulty proxy for easy-to-hard curriculum ordering, and a quality probe for data filtering. SAERL improves average accuracy by 3.00% over vanilla GRPO and reaches target accuracy with 20% fewer training steps on Qwen2.5-Math-1.5B, with consistent gains across model scales and RL algorithms. Experiments show that SAE transfers effectively across model families and scales, serving as a lightweight and reusable data engineering tool. These results demonstrate that model internals are a powerful and practical source of signals for post-training data engineering.