Нахождение в оптимальной зоне: эволюция адаптивного рассуждения через поддержку с помощью подсказок, адаптированных к возможностям

Аннотация

Обучение с подкреплением с верифицируемыми наградами (RLVR) достигло значительных успехов в улучшении способностей к рассуждению у крупных языковых моделей (LLM). Однако существующие методы RLVR часто страдают от неэффективности исследования из-за несоответствия между сложностью обучающих данных и возможностями модели. LLM не могут находить жизнеспособные пути рассуждения, когда задачи слишком сложны, и практически не приобретают новые навыки, когда задачи слишком просты. В данной работе мы формализуем влияние сложности задачи, количественно оценивая связь между скоростью снижения потерь и точностью rollout. На основе этого анализа мы предлагаем SEELE — новый фреймворк RLVR с поддержкой супервизии, который динамически регулирует сложность задачи, чтобы оставаться в области высокой эффективности. SEELE дополняет каждый обучающий пример, добавляя подсказку (часть полного решения) после исходной задачи. В отличие от предыдущих подходов, основанных на подсказках, SEELE целенаправленно и адаптивно регулирует длину подсказки для каждой задачи, чтобы достичь оптимальной сложности. Для определения оптимальной длины подсказки SEELE использует стратегию многораундового сэмплирования rollout. В каждом раунде он подгоняет модель теории ответов на задания к парам точность-подсказка, собранным в предыдущих раундах, чтобы предсказать необходимую длину подсказки для следующего раунда. Такая настройка сложности на уровне экземпляров в реальном времени согласует сложность задачи с развивающимися возможностями модели, тем самым повышая эффективность исследования. Экспериментальные результаты показывают, что SEELE превосходит Group Relative Policy Optimization (GRPO) и Supervised Fine-tuning (SFT) на +11,8 и +10,5 баллов соответственно, а также опережает лучший предыдущий подход с поддержкой супервизии в среднем на +3,6 балла на шести бенчмарках математического рассуждения.

English

Reinforcement learning with verifiable rewards (RLVR) has achieved remarkable success in enhancing the reasoning capabilities of large language models (LLMs). However, existing RLVR methods often suffer from exploration inefficiency due to mismatches between the training data's difficulty and the model's capability. LLMs fail to discover viable reasoning paths when problems are overly difficult, while learning little new capability when problems are too simple. In this work, we formalize the impact of problem difficulty by quantifying the relationship between loss descent speed and rollout accuracy. Building on this analysis, we propose SEELE, a novel supervision-aided RLVR framework that dynamically adjusts problem difficulty to stay within the high-efficiency region. SEELE augments each training sample by appending a hint (part of a full solution) after the original problem. Unlike previous hint-based approaches, SEELE deliberately and adaptively adjusts the hint length for each problem to achieve an optimal difficulty. To determine the optimal hint length, SEELE employs a multi-round rollout sampling strategy. In each round, it fits an item response theory model to the accuracy-hint pairs collected in preceding rounds to predict the required hint length for the next round. This instance-level, real-time difficulty adjustment aligns problem difficulty with the evolving model capability, thereby improving exploration efficiency. Experimental results show that SEELE outperforms Group Relative Policy Optimization (GRPO) and Supervised Fine-tuning (SFT) by +11.8 and +10.5 points, respectively, and surpasses the best previous supervision-aided approach by +3.6 points on average across six math reasoning benchmarks.

Нахождение в оптимальной зоне: эволюция адаптивного рассуждения через поддержку с помощью подсказок, адаптированных к возможностям

Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding

Аннотация

Support