S^2R: Vermittlung von Fähigkeiten zur Selbstüberprüfung und Selbstkorrektur bei LLMs durch Reinforcement Learning
S^2R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning
February 18, 2025
Autoren: Ruotian Ma, Peisong Wang, Cheng Liu, Xingyan Liu, Jiaqi Chen, Bang Zhang, Xin Zhou, Nan Du, Jia Li
cs.AI
Zusammenfassung
Aktuelle Studien haben die Wirksamkeit von Testzeit-Skalierung bei großen Sprachmodellen (LLMs) demonstriert. Allerdings erfordern bestehende Ansätze zur Förderung der tiefen Denkfähigkeiten von LLMs in der Regel umfangreiche Daten oder erhebliche Trainingsanstrengungen. Gleichzeitig bleibt unklar, wie die Denkfähigkeiten weniger leistungsstarker Basismodelle verbessert werden können. In dieser Arbeit stellen wir S^2R vor, ein effizientes Framework, das das logische Denken von LLMs verbessert, indem es den Modellen beibringt, sich während der Inferenz selbst zu überprüfen und zu korrigieren. Konkret initialisieren wir zunächst LLMs mit iterativem Selbstüberprüfungs- und Selbstkorrekturverhalten durch überwachtes Feinabstimmen auf sorgfältig kuratierten Daten. Die Fähigkeiten zur Selbstüberprüfung und Selbstkorrektur werden dann durch sowohl ergebnis- als auch prozessbasiertes Reinforcement Learning weiter gestärkt, wobei der Ressourcenbedarf minimiert wird, sodass das Modell in der Lage ist, seinen Denkprozess während der Inferenz adaptiv zu verfeinern. Unsere Ergebnisse zeigen, dass Qwen2.5-math-7B mit nur 3.1k Initialisierungsbeispielen für selbstüberprüfendes und selbstkorrigierendes Verhalten eine Genauigkeitssteigerung von 51,0\% auf 81,6\% erreicht und damit Modelle übertrifft, die mit einer äquivalenten Menge an langen Chain-of-Thought (CoT) destillierten Daten trainiert wurden. Umfangreiche Experimente und Analysen basierend auf drei Basismodellen sowohl in domänenspezifischen als auch domänenübergreifenden Benchmarks bestätigen die Wirksamkeit von S^2R. Unser Code und unsere Daten sind unter https://github.com/NineAbyss/S2R verfügbar.
English
Recent studies have demonstrated the effectiveness of LLM test-time scaling.
However, existing approaches to incentivize LLMs' deep thinking abilities
generally require large-scale data or significant training efforts. Meanwhile,
it remains unclear how to improve the thinking abilities of less powerful base
models. In this work, we introduce S^2R, an efficient framework that enhances
LLM reasoning by teaching models to self-verify and self-correct during
inference. Specifically, we first initialize LLMs with iterative
self-verification and self-correction behaviors through supervised fine-tuning
on carefully curated data. The self-verification and self-correction skills are
then further strengthened by both outcome-level and process-level reinforcement
learning, with minimized resource requirements, enabling the model to
adaptively refine its reasoning process during inference. Our results
demonstrate that, with only 3.1k self-verifying and self-correcting behavior
initialization samples, Qwen2.5-math-7B achieves an accuracy improvement from
51.0\% to 81.6\%, outperforming models trained on an equivalent amount of
long-CoT distilled data. Extensive experiments and analysis based on three base
models across both in-domain and out-of-domain benchmarks validate the
effectiveness of S^2R. Our code and data are available at
https://github.com/NineAbyss/S2R.Summary
AI-Generated Summary