Направление инженерии данных пост-обучения LLM с использованием внутренних состояний модели из разреженных автоэнкодеров

Аннотация

Внутренние состояния модели кодируют богатую информацию о том, как большая языковая модель (LLM) обрабатывает свои обучающие данные; однако инженерия данных после обучения в значительной степени полагается на внешние сигналы и игнорирует богатые внутренние сигналы, заложенные в этих состояниях. Мы предлагаем SAERL — фреймворк для инженерии данных при обучении с подкреплением (RL) больших языковых моделей. Он моделирует три внутренних свойства данных: разнообразие, сложность и качество, используя внутренние состояния модели, извлечённые с помощью разреженного автоэнкодера (Sparse Autoencoder, SAE) — продвинутого инструмента механистической интерпретируемости. Каждое свойство обосновывает конкретную операцию инженерии данных: кластеризацию в пространстве SAE с умеренным смешиванием батчей для контроля разнообразия батчей, прокси сложности для упорядочивания по принципу «от простого к сложному» (easy-to-hard curriculum ordering) и классификатор качества для фильтрации данных. SAERL повышает среднюю точность на 3,00% по сравнению с обычным GRPO и достигает целевой точности с сокращением числа шагов обучения на 20% на модели Qwen2.5-Math-1.5B, демонстрируя устойчивый прирост при различных масштабах моделей и алгоритмах RL. Эксперименты показывают, что SAE эффективно переносится между семействами и масштабами моделей, выступая в качестве лёгкого и многократно используемого инструмента инженерии данных. Эти результаты свидетельствуют о том, что внутренние состояния модели являются мощным и практичным источником сигналов для инженерии данных на этапе после обучения.

English

Model internals encode rich information about how a large language model (LLM) processes its training data; however, post-training data engineering largely relies on external signals and ignores rich intrinsic signals lying in model internals. We propose SAERL, a data engineering framework for LLM reinforcement learning (RL). It models three intrinsic data properties: diversity, difficulty, and quality, using model internals extracted with Sparse Autoencoder (SAE), an advanced mechanistic interpretability tool. Each property grounds a concrete data engineering operation: SAE-space clustering with moderate batch mixing for batch diversity control, a difficulty proxy for easy-to-hard curriculum ordering, and a quality probe for data filtering. SAERL improves average accuracy by 3.00% over vanilla GRPO and reaches target accuracy with 20% fewer training steps on Qwen2.5-Math-1.5B, with consistent gains across model scales and RL algorithms. Experiments show that SAE transfers effectively across model families and scales, serving as a lightweight and reusable data engineering tool. These results demonstrate that model internals are a powerful and practical source of signals for post-training data engineering.