Im Sweet Spot bleiben: Entwicklung von reaktionsfähigem Denken durch fähigkeitsadaptives Hinweisgerüst
Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding
September 8, 2025
papers.authors: Ziheng Li, Zexu Sun, Jinman Zhao, Erxue Min, Yongcheng Zeng, Hui Wu, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Xu Chen, Zhi-Hong Deng
cs.AI
papers.abstract
Verstärkungslernen mit verifizierbaren Belohnungen (RLVR) hat bemerkenswerte Erfolge bei der Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des logischen Denkens erzielt. Allerdings leiden bestehende RLVR-Methoden oft unter ineffizienter Exploration, da die Schwierigkeit der Trainingsdaten nicht mit den Fähigkeiten des Modells übereinstimmt. LLMs scheitern daran, gangbare Lösungswege zu finden, wenn Probleme zu schwierig sind, während sie kaum neue Fähigkeiten erlernen, wenn Probleme zu einfach sind. In dieser Arbeit formalisieren wir den Einfluss der Problemschwierigkeit, indem wir die Beziehung zwischen der Geschwindigkeit des Verlustabfalls und der Genauigkeit der Rollouts quantifizieren. Aufbauend auf dieser Analyse schlagen wir SEELE vor, ein neuartiges, aufsichtsbasiertes RLVR-Framework, das die Problemschwierigkeit dynamisch anpasst, um im Bereich hoher Effizienz zu bleiben. SEELE erweitert jede Trainingsprobe, indem es einen Hinweis (einen Teil einer vollständigen Lösung) nach dem ursprünglichen Problem anhängt. Im Gegensatz zu früheren Ansätzen, die auf Hinweisen basieren, passt SEELE die Länge des Hinweises für jedes Problem gezielt und adaptiv an, um eine optimale Schwierigkeit zu erreichen. Um die optimale Hinweislänge zu bestimmen, verwendet SEELE eine Strategie zur mehrfachen Rollout-Stichprobenziehung. In jeder Runde passt es ein Modell der Item-Response-Theorie an die in den vorherigen Runden gesammelten Genauigkeits-Hinweis-Paare an, um die erforderliche Hinweislänge für die nächste Runde vorherzusagen. Diese instanzbasierte, Echtzeit-Anpassung der Schwierigkeit sorgt dafür, dass die Problemschwierigkeit mit der sich entwickelnden Modellfähigkeit übereinstimmt, wodurch die Explorationseffizienz verbessert wird. Experimentelle Ergebnisse zeigen, dass SEELE die Group Relative Policy Optimization (GRPO) und das Supervised Fine-tuning (SFT) um +11,8 bzw. +10,5 Punkte übertrifft und den bisher besten aufsichtsbasierten Ansatz im Durchschnitt über sechs mathematische Denkbenchmarks um +3,6 Punkte überbietet.
English
Reinforcement learning with verifiable rewards (RLVR) has achieved remarkable
success in enhancing the reasoning capabilities of large language models
(LLMs). However, existing RLVR methods often suffer from exploration
inefficiency due to mismatches between the training data's difficulty and the
model's capability. LLMs fail to discover viable reasoning paths when problems
are overly difficult, while learning little new capability when problems are
too simple. In this work, we formalize the impact of problem difficulty by
quantifying the relationship between loss descent speed and rollout accuracy.
Building on this analysis, we propose SEELE, a novel supervision-aided RLVR
framework that dynamically adjusts problem difficulty to stay within the
high-efficiency region. SEELE augments each training sample by appending a hint
(part of a full solution) after the original problem. Unlike previous
hint-based approaches, SEELE deliberately and adaptively adjusts the hint
length for each problem to achieve an optimal difficulty. To determine the
optimal hint length, SEELE employs a multi-round rollout sampling strategy. In
each round, it fits an item response theory model to the accuracy-hint pairs
collected in preceding rounds to predict the required hint length for the next
round. This instance-level, real-time difficulty adjustment aligns problem
difficulty with the evolving model capability, thereby improving exploration
efficiency. Experimental results show that SEELE outperforms Group Relative
Policy Optimization (GRPO) and Supervised Fine-tuning (SFT) by +11.8 and +10.5
points, respectively, and surpasses the best previous supervision-aided
approach by +3.6 points on average across six math reasoning benchmarks.