In het ideale gebied blijven: Evolutie van responsief redeneren via vermogensadaptieve hint-scaffolding
Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding
September 8, 2025
Auteurs: Ziheng Li, Zexu Sun, Jinman Zhao, Erxue Min, Yongcheng Zeng, Hui Wu, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Xu Chen, Zhi-Hong Deng
cs.AI
Samenvatting
Reinforcement learning met verifieerbare beloningen (RLVR) heeft opmerkelijke successen geboekt in het verbeteren van de redeneervaardigheden van grote taalmodelen (LLMs). Bestaande RLVR-methoden kampen echter vaak met inefficiënte exploratie door een mismatch tussen de moeilijkheidsgraad van de trainingsdata en de capaciteit van het model. LLMs slagen er niet in om haalbare redeneerpaden te ontdekken wanneer problemen te moeilijk zijn, terwijl ze weinig nieuwe vaardigheden leren wanneer problemen te eenvoudig zijn. In dit werk formaliseren we de impact van probleemmoeilijkheid door de relatie tussen verliesafnamesnelheid en nauwkeurigheid van rollouts te kwantificeren. Op basis van deze analyse stellen we SEELE voor, een nieuw RLVR-raamwerk met begeleiding dat dynamisch de probleemmoeilijkheid aanpast om binnen het hoogrenderende gebied te blijven. SEELE verrijkt elk trainingsvoorbeeld door een hint (een deel van een volledige oplossing) toe te voegen na het oorspronkelijke probleem. In tegenstelling tot eerdere hint-gebaseerde benaderingen, past SEELE opzettelijk en adaptief de hintlengte voor elk probleem aan om een optimale moeilijkheidsgraad te bereiken. Om de optimale hintlengte te bepalen, gebruikt SEELE een strategie voor meervoudige rollout-steekproeven. In elke ronde past het een item response theory-model toe op de nauwkeurigheid-hint-paren die in voorgaande rondes zijn verzameld, om de benodigde hintlengte voor de volgende ronde te voorspellen. Deze aanpassing van de moeilijkheidsgraad op instantieniveau en in realtime zorgt ervoor dat de probleemmoeilijkheid aansluit bij de evoluerende modelcapaciteit, waardoor de exploratie-efficiëntie wordt verbeterd. Experimentele resultaten tonen aan dat SEELE Group Relative Policy Optimization (GRPO) en Supervised Fine-tuning (SFT) respectievelijk met +11,8 en +10,5 punten overtreft, en de beste eerdere begeleidingsgebaseerde aanpak gemiddeld met +3,6 punten overstijgt op zes wiskundige redeneerbenchmarks.
English
Reinforcement learning with verifiable rewards (RLVR) has achieved remarkable
success in enhancing the reasoning capabilities of large language models
(LLMs). However, existing RLVR methods often suffer from exploration
inefficiency due to mismatches between the training data's difficulty and the
model's capability. LLMs fail to discover viable reasoning paths when problems
are overly difficult, while learning little new capability when problems are
too simple. In this work, we formalize the impact of problem difficulty by
quantifying the relationship between loss descent speed and rollout accuracy.
Building on this analysis, we propose SEELE, a novel supervision-aided RLVR
framework that dynamically adjusts problem difficulty to stay within the
high-efficiency region. SEELE augments each training sample by appending a hint
(part of a full solution) after the original problem. Unlike previous
hint-based approaches, SEELE deliberately and adaptively adjusts the hint
length for each problem to achieve an optimal difficulty. To determine the
optimal hint length, SEELE employs a multi-round rollout sampling strategy. In
each round, it fits an item response theory model to the accuracy-hint pairs
collected in preceding rounds to predict the required hint length for the next
round. This instance-level, real-time difficulty adjustment aligns problem
difficulty with the evolving model capability, thereby improving exploration
efficiency. Experimental results show that SEELE outperforms Group Relative
Policy Optimization (GRPO) and Supervised Fine-tuning (SFT) by +11.8 and +10.5
points, respectively, and surpasses the best previous supervision-aided
approach by +3.6 points on average across six math reasoning benchmarks.