За пределами GRPO и политико-ориентированной дистилляции: Эмпирический принцип разреженного-плотного вознаграждения для пост-обучения языковых моделей

Аннотация

В условиях, где размеченные верифицируемые обучающие данные являются сдерживающим ограничением, каждый проверенный пример следует распределять тщательно. Стандартная практика — использовать эти данные непосредственно на модели, которая будет развернута, например, запуская GRPO на студенте, предназначенном для развертывания. Мы утверждаем, что зачастую это неэффективное распределение, поскольку оно упускает из виду принцип плотности вознаграждения: разреженное вознаграждение на уровне последовательностей должно обучать модели там, где исследование продуктивно, в то время как плотное учительское вознаграждение на уровне токенов следует использовать там, где цель — сжать поведение в меньшую модель. С этой точки зрения, разреженное RL в стиле GRPO и плотное учительское обучение в стиле OPD — не отдельные рецепты; это различные режимы плотности вознаграждения. Правило распределения простое: использовать дефицитные размеченные обучающие данные на upstream (на более раннем этапе) на самой сильной модели, которая может превратить их в поведение, сформированное вознаграждением, а затем перенести это поведение downstream (на более поздний этап) в виде плотного обучения. Мы оцениваем это правило на верифицируемой математике с моделями Qwen3 и Llama. При фиксированном размере студента для развертывания Qwen3-1.7B, улучшенный RL учитель размером 8B, дистиллированный через плотный мост, превосходит прямой GRPO на том же студенте, в то время как перенос от того же учителя до RL показывает худшие результаты. Мост важен: разогрев с прямой KL-дивергенцией на прогонах учителя с последующим OPD на прогонах студента стабильно показывает лучшие результаты на MATH до любого последующего разреженного RL на стороне студента после моста, а также дает лучшие предварительные точки AIME для этапа 3 для канонических учителей размером 8B/14B. Мост также делает последующее разреженное RL на стороне студента эффективным: GRPO, который слаб на холодном студенте, поднимает MATH с 75,4% до 78,5% после моста и превосходит соответствующий контроль повторного воспроизведения на 2,8 пункта. Операционный принцип — избегать использования дефицитных размеченных данных на наименее подготовленной политике: использовать разреженное вознаграждение для открытий на стороне учителя, плотный перенос для сжатия студента и разреженное вознаграждение на стороне студента только после моста.

English

In settings where labeled verifiable training data is the binding constraint, each checked example should be allocated carefully. The standard practice is to use this data directly on the model that will be deployed, for example by running GRPO on the deployment student. We argue that this is often an inefficient allocation because it overlooks a reward-density principle: sparse sequence-level reward should train models where exploration is productive, while dense token-level teacher reward should be used where the aim is to compress behavior into a smaller model. In this view, GRPO-style sparse RL and OPD-style dense teacher supervision are not separate recipes; they are different reward-density regimes. The allocation rule is simple: use scarce labeled training data upstream on the strongest model that can turn it into reward-shaped behavior, then transfer that behavior downstream as dense supervision. We evaluate this rule on verifiable math with Qwen3 and Llama models. At fixed Qwen3-1.7B deployment-student size, an RL-improved 8B teacher distilled through the dense bridge outperforms direct GRPO on the same student, while transfer from the same teacher before RL underperforms. The bridge is important: a forward-KL warmup on teacher rollouts followed by OPD on student rollouts is consistently strongest on MATH before any post-bridge student-side sparse RL, and also gives the best pre-Stage~3 AIME endpoints for the canonical 8B/14B teachers. The bridge also makes later student-side sparse RL effective: GRPO that is weak on a cold student lifts MATH from 75.4% to 78.5% after the bridge and outperforms a matched replay control by 2.8 points. The operational principal is to avoid using scarce labeled data on the least prepared policy: use sparse reward for teacher-side discovery, dense transfer for student compression, and student-side sparse reward only after the bridge.

За пределами GRPO и политико-ориентированной дистилляции: Эмпирический принцип разреженного-плотного вознаграждения для пост-обучения языковых моделей

Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

Аннотация

Support