Нахождение в оптимальной зоне: эволюция адаптивного рассуждения через поддержку с помощью подсказок, адаптированных к возможностям
Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding
September 8, 2025
Авторы: Ziheng Li, Zexu Sun, Jinman Zhao, Erxue Min, Yongcheng Zeng, Hui Wu, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Xu Chen, Zhi-Hong Deng
cs.AI
Аннотация
Обучение с подкреплением с верифицируемыми наградами (RLVR) достигло значительных успехов в улучшении способностей к рассуждению у крупных языковых моделей (LLM). Однако существующие методы RLVR часто страдают от неэффективности исследования из-за несоответствия между сложностью обучающих данных и возможностями модели. LLM не могут находить жизнеспособные пути рассуждения, когда задачи слишком сложны, и практически не приобретают новые навыки, когда задачи слишком просты. В данной работе мы формализуем влияние сложности задачи, количественно оценивая связь между скоростью снижения потерь и точностью rollout. На основе этого анализа мы предлагаем SEELE — новый фреймворк RLVR с поддержкой супервизии, который динамически регулирует сложность задачи, чтобы оставаться в области высокой эффективности. SEELE дополняет каждый обучающий пример, добавляя подсказку (часть полного решения) после исходной задачи. В отличие от предыдущих подходов, основанных на подсказках, SEELE целенаправленно и адаптивно регулирует длину подсказки для каждой задачи, чтобы достичь оптимальной сложности. Для определения оптимальной длины подсказки SEELE использует стратегию многораундового сэмплирования rollout. В каждом раунде он подгоняет модель теории ответов на задания к парам точность-подсказка, собранным в предыдущих раундах, чтобы предсказать необходимую длину подсказки для следующего раунда. Такая настройка сложности на уровне экземпляров в реальном времени согласует сложность задачи с развивающимися возможностями модели, тем самым повышая эффективность исследования. Экспериментальные результаты показывают, что SEELE превосходит Group Relative Policy Optimization (GRPO) и Supervised Fine-tuning (SFT) на +11,8 и +10,5 баллов соответственно, а также опережает лучший предыдущий подход с поддержкой супервизии в среднем на +3,6 балла на шести бенчмарках математического рассуждения.
English
Reinforcement learning with verifiable rewards (RLVR) has achieved remarkable
success in enhancing the reasoning capabilities of large language models
(LLMs). However, existing RLVR methods often suffer from exploration
inefficiency due to mismatches between the training data's difficulty and the
model's capability. LLMs fail to discover viable reasoning paths when problems
are overly difficult, while learning little new capability when problems are
too simple. In this work, we formalize the impact of problem difficulty by
quantifying the relationship between loss descent speed and rollout accuracy.
Building on this analysis, we propose SEELE, a novel supervision-aided RLVR
framework that dynamically adjusts problem difficulty to stay within the
high-efficiency region. SEELE augments each training sample by appending a hint
(part of a full solution) after the original problem. Unlike previous
hint-based approaches, SEELE deliberately and adaptively adjusts the hint
length for each problem to achieve an optimal difficulty. To determine the
optimal hint length, SEELE employs a multi-round rollout sampling strategy. In
each round, it fits an item response theory model to the accuracy-hint pairs
collected in preceding rounds to predict the required hint length for the next
round. This instance-level, real-time difficulty adjustment aligns problem
difficulty with the evolving model capability, thereby improving exploration
efficiency. Experimental results show that SEELE outperforms Group Relative
Policy Optimization (GRPO) and Supervised Fine-tuning (SFT) by +11.8 and +10.5
points, respectively, and surpasses the best previous supervision-aided
approach by +3.6 points on average across six math reasoning benchmarks.