ChatPaper.aiChatPaper

Обучение моделей рассуждений на насыщенных задачах с помощью кондиционирования на префиксах неудач

Training Reasoning Models on Saturated Problems via Failure-Prefix Conditioning

January 28, 2026
Авторы: Minwu Kim, Safal Shrestha, Keith Ross
cs.AI

Аннотация

Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) существенно улучшило способности крупных языковых моделей (LLM) к рассуждению, однако обучение часто останавливается по мере насыщения задач. Мы определяем ключевую проблему как плохую доступность информативных неудач: сигналы для обучения существуют, но редко встречаются при стандартных прогонах. Для решения этой проблемы мы предлагаем *обусловливание префиксами неудач* — простой и эффективный метод обучения на насыщенных задачах. Вместо того чтобы начинать с исходного вопроса, наш подход перераспределяет исследование, обусловливая обучение префиксами, полученными из редких некорректных траекторий рассуждений, тем самым exposing модель к состояниям, склонным к неудачам. Мы наблюдаем, что обусловливание префиксами неудач дает прирост производительности, сопоставимый с обучением на задачах средней сложности, при сохранении токенной эффективности. Кроме того, мы анализируем устойчивость модели и обнаруживаем, что наш метод снижает деградацию производительности при вводящих в заблуждение префиксах неудач, хотя и с умеренным компромиссом в части следования корректным ранним рассуждениям. Наконец, мы демонстрируем, что итеративный подход, обновляющий префиксы неудач в процессе обучения, позволяет получить дополнительный прирост после выхода производительности на плато. В целом, наши результаты позволяют предположить, что обусловливание префиксами неудач предлагает эффективный путь для продления RLVR-обучения на насыщенных задачах.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has substantially improved the reasoning abilities of large language models (LLMs), yet training often stalls as problems become saturated. We identify the core challenge as the poor accessibility of informative failures: learning signals exist but are rarely encountered during standard rollouts. To address this, we propose failure-prefix conditioning, a simple and effective method for learning from saturated problems. Rather than starting from the original question, our approach reallocates exploration by conditioning training on prefixes derived from rare incorrect reasoning trajectories, thereby exposing the model to failure-prone states. We observe that failure-prefix conditioning yields performance gains matching those of training on medium-difficulty problems, while preserving token efficiency. Furthermore, we analyze the model's robustness, finding that our method reduces performance degradation under misleading failure prefixes, albeit with a mild trade-off in adherence to correct early reasoning. Finally, we demonstrate that an iterative approach, which refreshes failure prefixes during training, unlocks additional gains after performance plateaus. Overall, our results suggest that failure-prefix conditioning offers an effective pathway to extend RLVR training on saturated problems.
PDF21January 30, 2026