Расширение границ рассуждений в больших языковых моделях

Аннотация

Современные алгоритмы онлайн-обучения с подкреплением (RL), такие как GRPO, имеют ключевое ограничение в рассуждениях больших языковых моделей (LLM): они не могут обучаться на задачах, которые являются "нерешаемыми" для модели. Другими словами, они могут улучшать производительность только на задачах, где модель способна исследовать правильный ответ. В результате "верхний предел" модели остается неизменным после обучения с подкреплением, хотя вероятность решения более простых, решаемых задач может увеличиться. Эти сложные примеры не могут вносить вклад в обучение, так как ни один из прогонов не приносит наград и, следовательно, не создает градиентов. Чтобы раскрыть возможность обучения на таких сложных примерах, мы предлагаем NuRL — метод "подталкивания", который направлен на повышение верхней границы рассуждений LLM с использованием самостоятельно генерируемых подсказок, то есть абстрактных указаний, которые помогают снизить сложность задачи для модели. При наличии вопроса и его правильного ответа модель генерирует цепочку рассуждений (CoT), а затем создает подсказку, содержащую ключевые знания, необходимые для решения задачи. Во время обучения мы генерируем G прогонов из базовой политики и используем процент успешных решений, чтобы определить, следует ли внедрять подсказку. Для сложных примеров с 0% успешных решений мы внедряем подсказку и повторно генерируем новую партию траекторий. Это дает два преимущества: (1) подсказка повышает процент успешных решений (с 0% до ненулевого значения), тем самым вводя обучающие сигналы для ранее нерешаемых примеров, и (2) подсказки генерируются самостоятельно, что избегает смещения распределения и не зависит от внешних моделей. NuRL демонстрирует устойчивые улучшения на 6 бенчмарках и 3 моделях, оставаясь дополнением к масштабированию на этапе тестирования. Примечательно, что NuRL может повысить верхний предел модели, тогда как GRPO оставляет pass@1024 неизменным по сравнению с базовой моделью. Кроме того, мы представляем систематическое исследование того, что делает подсказку эффективной и когда она наиболее полезна. Интересно, что лучшие подсказки являются абстрактными и высокоуровневыми, и они наиболее полезны, когда применяются только при необходимости и после того, как GRPO достиг сходимости.

English

Current online reinforcement learning (RL) algorithms like GRPO share a key limitation in LLM reasoning: they cannot learn from problems that are "unsolvable" to the model. In other words, they can only improve performance on problems where the model is capable of exploring the correct answer. Consequently, the model's "upper limit" remains unchanged after RL training, even though the likelihood of solving easier, solvable problems may increase. These hard samples cannot contribute to training, as no rollouts yield rewards and thus no gradients are produced. To unlock learning from these hard samples, we propose NuRL, a "nudging" method that aims to push the upper bound of LLM reasoning using self-generated hints, i.e., abstract cues that help reduce the problem difficulty for the model. Given a question and its gold answer, the model generates a CoT and then produces a hint containing the core knowledge needed to solve the problem. During training, we generate G rollouts from the base policy and use the pass rate to decide whether the hint should be injected. For hard samples with a 0% pass rate, we inject the hint and regenerate a new batch of trajectories. This yields two benefits: (1) the hint boosts pass rates (from 0% to non-zero), thereby introducing training signals for previously unsolvable samples, and (2) the hints are self-generated, avoiding distributional shift and do not rely on external models. NuRL achieves consistent improvements across 6 benchmarks and 3 models, while remaining complementary to test-time scaling. Notably, NuRL can raise the model's upper limit, whereas GRPO leaves pass@1024 unchanged from the base model. Furthermore, we present a systematic study of what makes an effective hint and when hints are most useful. Interestingly, the best hints are abstract and high-level, and are most beneficial when applied necessarily and after GRPO has converged.

Расширение границ рассуждений в больших языковых моделях

Nudging the Boundaries of LLM Reasoning

Аннотация

Support