Im Sweet Spot bleiben: Entwicklung von reaktionsfähigem Denken durch fähigkeitsadaptives Hinweisgerüst

papers.abstract

Verstärkungslernen mit verifizierbaren Belohnungen (RLVR) hat bemerkenswerte Erfolge bei der Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des logischen Denkens erzielt. Allerdings leiden bestehende RLVR-Methoden oft unter ineffizienter Exploration, da die Schwierigkeit der Trainingsdaten nicht mit den Fähigkeiten des Modells übereinstimmt. LLMs scheitern daran, gangbare Lösungswege zu finden, wenn Probleme zu schwierig sind, während sie kaum neue Fähigkeiten erlernen, wenn Probleme zu einfach sind. In dieser Arbeit formalisieren wir den Einfluss der Problemschwierigkeit, indem wir die Beziehung zwischen der Geschwindigkeit des Verlustabfalls und der Genauigkeit der Rollouts quantifizieren. Aufbauend auf dieser Analyse schlagen wir SEELE vor, ein neuartiges, aufsichtsbasiertes RLVR-Framework, das die Problemschwierigkeit dynamisch anpasst, um im Bereich hoher Effizienz zu bleiben. SEELE erweitert jede Trainingsprobe, indem es einen Hinweis (einen Teil einer vollständigen Lösung) nach dem ursprünglichen Problem anhängt. Im Gegensatz zu früheren Ansätzen, die auf Hinweisen basieren, passt SEELE die Länge des Hinweises für jedes Problem gezielt und adaptiv an, um eine optimale Schwierigkeit zu erreichen. Um die optimale Hinweislänge zu bestimmen, verwendet SEELE eine Strategie zur mehrfachen Rollout-Stichprobenziehung. In jeder Runde passt es ein Modell der Item-Response-Theorie an die in den vorherigen Runden gesammelten Genauigkeits-Hinweis-Paare an, um die erforderliche Hinweislänge für die nächste Runde vorherzusagen. Diese instanzbasierte, Echtzeit-Anpassung der Schwierigkeit sorgt dafür, dass die Problemschwierigkeit mit der sich entwickelnden Modellfähigkeit übereinstimmt, wodurch die Explorationseffizienz verbessert wird. Experimentelle Ergebnisse zeigen, dass SEELE die Group Relative Policy Optimization (GRPO) und das Supervised Fine-tuning (SFT) um +11,8 bzw. +10,5 Punkte übertrifft und den bisher besten aufsichtsbasierten Ansatz im Durchschnitt über sechs mathematische Denkbenchmarks um +3,6 Punkte überbietet.

English

Reinforcement learning with verifiable rewards (RLVR) has achieved remarkable success in enhancing the reasoning capabilities of large language models (LLMs). However, existing RLVR methods often suffer from exploration inefficiency due to mismatches between the training data's difficulty and the model's capability. LLMs fail to discover viable reasoning paths when problems are overly difficult, while learning little new capability when problems are too simple. In this work, we formalize the impact of problem difficulty by quantifying the relationship between loss descent speed and rollout accuracy. Building on this analysis, we propose SEELE, a novel supervision-aided RLVR framework that dynamically adjusts problem difficulty to stay within the high-efficiency region. SEELE augments each training sample by appending a hint (part of a full solution) after the original problem. Unlike previous hint-based approaches, SEELE deliberately and adaptively adjusts the hint length for each problem to achieve an optimal difficulty. To determine the optimal hint length, SEELE employs a multi-round rollout sampling strategy. In each round, it fits an item response theory model to the accuracy-hint pairs collected in preceding rounds to predict the required hint length for the next round. This instance-level, real-time difficulty adjustment aligns problem difficulty with the evolving model capability, thereby improving exploration efficiency. Experimental results show that SEELE outperforms Group Relative Policy Optimization (GRPO) and Supervised Fine-tuning (SFT) by +11.8 and +10.5 points, respectively, and surpasses the best previous supervision-aided approach by +3.6 points on average across six math reasoning benchmarks.

Im Sweet Spot bleiben: Entwicklung von reaktionsfähigem Denken durch fähigkeitsadaptives Hinweisgerüst

Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding

papers.abstract

Support