ExpRL: Исследовательское обучение с подкреплением для промежуточного обучения LLM

Аннотация

Обучение с подкреплением с разреженными наградами (RL) стало стандартным инструментом для улучшения рассуждений больших языковых моделей (LLM), однако его успех критически зависит от покрытия, присутствующего в базовой модели. На практике модели часто подготавливаются к RL с помощью промежуточного обучения на отобранных цепочках рассуждений, которые формируют полезные базовые навыки, такие как декомпозиция, верификация или самокоррекция. Хотя эта стратегия эффективна, она требует ручного указания того, что должна изучать модель, и остается неясным, достаточно ли такого базового покрытия для значительно более сложных задач, требующих комбинирования этих навыков в более широкие стратегии решения. Мы исследуем более автоматизированный подход: промежуточное обучение на основе RL с использованием крупных корпусов данных вида «вопрос-ответ», созданных человеком. Вместо того чтобы рассматривать эталонные решения как цели для имитации, наш метод ExpRL использует их как каркасы для вознаграждения: эталонные решения скрыты от политики и применяются лишь для построения критериев оценки, специфичных для конкретной задачи, с целью суждения о цепочках рассуждений, порождаемых текущей политикой. Политика производит выборку из исходного промпта задачи, в то время как судья на основе LLM сравнивает полученную цепочку рассуждений с эталонным решением и назначает плотные награды на уровне результата или процесса. Это позволяет ExpRL усиливать частичный прогресс, полезные промежуточные редукции и продуктивные паттерны рассуждений, которые разреженные награды за окончательный ответ часто не в состоянии должным образом оценить. На сложных задачах математического рассуждения ExpRL обеспечивает более сильную предварительную подготовку для RL, чем SFT, GRPO с разреженными наградами и самодистилляция, а также создает лучшую начальную точку для последующего RL с разреженными наградами. Дополнительные эксперименты на смешанных доменах также показывают, что ExpRL может выходить за рамки исходной математической области.

English

Sparse reward reinforcement learning (RL) has become a standard tool for improving LLM reasoning, but its success depends critically on the coverage present in the base model. In practice, models are often primed for RL through mid-training on curated reasoning traces that teach useful primitive skills such as decomposition, verification, or self-correction. Although effective, this strategy requires manually specifying what the model should learn, and it remains unclear whether such primitive coverage is enough for much harder problems, which require combining these skills into broader solution strategies. We study a more automated approach: RL-based mid-training using large corpora of human-written question-answer data. Rather than treating reference solutions as targets to imitate, our method, ExpRL, uses them as reward scaffolds: references are hidden from the policy and used only to construct problem-specific grading rubrics for judging on-policy reasoning traces. The policy samples from the original problem prompt, while an LLM judge compares the sampled reasoning trace against the reference solution and assigns outcome-level or process-level dense rewards. This lets ExpRL reinforce partial progress, useful intermediate reductions, and productive reasoning behaviors that sparse final-answer rewards often fail to upweight. On challenging math reasoning tasks, ExpRL yields stronger RL priming than SFT, sparse-reward GRPO, and self-distillation, and provides a better initialization for subsequent sparse-reward RL. Additional mixed-domain experiments further suggest that ExpRL can extend beyond the original math-only setting.