Orientando a Engenharia de Dados de Pós-Treinamento de LLMs com Representações Internas de Modelos a partir de Autoencoders Esparsos
Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders
May 26, 2026
Autores: Yi Jing, Zao Dai, Jinwu Hu, Zijun Yao, Lei Hou, Juanzi Li, Xiaozhi Wang
cs.AI
Resumo
Os internos do modelo codificam informações ricas sobre como um modelo de linguagem de grande porte (LLM) processa seus dados de treinamento; no entanto, a engenharia de dados pós-treinamento depende amplamente de sinais externos e ignora os sinais intrínsecos ricos presentes nos internos do modelo. Propomos o SAERL, uma estrutura de engenharia de dados para aprendizado por reforço (RL) em LLMs. Ele modela três propriedades intrínsecas dos dados: diversidade, dificuldade e qualidade, utilizando internos do modelo extraídos com Autoencoder Esparso (SAE), uma ferramenta avançada de interpretabilidade mecanicista. Cada propriedade fundamenta uma operação concreta de engenharia de dados: agrupamento no espaço SAE com mistura moderada de lotes para controle de diversidade de lotes, uma proxy de dificuldade para ordenação curricular do fácil ao difícil e uma sonda de qualidade para filtragem de dados. O SAERL melhora a precisão média em 3,00% em relação ao GRPO vanilla e atinge a precisão alvo com 20% menos etapas de treinamento no Qwen2.5-Math-1.5B, com ganhos consistentes em diferentes escalas de modelo e algoritmos de RL. Experimentos mostram que o SAE é transferido eficazmente entre famílias e escalas de modelo, funcionando como uma ferramenta de engenharia de dados leve e reutilizável. Esses resultados demonstram que os internos do modelo são uma fonte poderosa e prática de sinais para a engenharia de dados pós-treinamento.
English
Model internals encode rich information about how a large language model (LLM) processes its training data; however, post-training data engineering largely relies on external signals and ignores rich intrinsic signals lying in model internals. We propose SAERL, a data engineering framework for LLM reinforcement learning (RL). It models three intrinsic data properties: diversity, difficulty, and quality, using model internals extracted with Sparse Autoencoder (SAE), an advanced mechanistic interpretability tool. Each property grounds a concrete data engineering operation: SAE-space clustering with moderate batch mixing for batch diversity control, a difficulty proxy for easy-to-hard curriculum ordering, and a quality probe for data filtering. SAERL improves average accuracy by 3.00% over vanilla GRPO and reaches target accuracy with 20% fewer training steps on Qwen2.5-Math-1.5B, with consistent gains across model scales and RL algorithms. Experiments show that SAE transfers effectively across model families and scales, serving as a lightweight and reusable data engineering tool. These results demonstrate that model internals are a powerful and practical source of signals for post-training data engineering.