S^2R: Grote Taalmodellen Zelfverificatie en Zelfcorrectie Aanleren via Reinforcement Learning
S^2R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning
February 18, 2025
Auteurs: Ruotian Ma, Peisong Wang, Cheng Liu, Xingyan Liu, Jiaqi Chen, Bang Zhang, Xin Zhou, Nan Du, Jia Li
cs.AI
Samenvatting
Recente studies hebben de effectiviteit van LLM test-time scaling aangetoond.
Echter, bestaande benaderingen om de diepe denkvaardigheden van LLM's te stimuleren,
vereisen over het algemeen grootschalige data of aanzienlijke trainingsinspanningen. Tegelijkertijd
blijft het onduidelijk hoe de denkvaardigheden van minder krachtige basismodellen kunnen worden verbeterd.
In dit werk introduceren we S^2R, een efficiënt framework dat het redeneren van LLM's verbetert
door modellen te leren zichzelf te verifiëren en te corrigeren tijdens de inferentie. Specifiek
initialiseren we eerst LLM's met iteratief zelfverificatie- en zelfcorrectiegedrag door middel van
gesuperviseerde fine-tuning op zorgvuldig samengestelde data. De zelfverificatie- en zelfcorrectievaardigheden
worden vervolgens verder versterkt door zowel outcome-level als process-level reinforcement learning,
met minimale resourcevereisten, waardoor het model in staat is om zijn redeneerproces adaptief te verfijnen
tijdens de inferentie. Onze resultaten tonen aan dat, met slechts 3.1k initialisatievoorbeelden van
zelfverificatie- en zelfcorrectiegedrag, Qwen2.5-math-7B een nauwkeurigheidsverbetering bereikt van
51.0\% naar 81.6\%, wat beter presteert dan modellen getraind op een equivalente hoeveelheid
long-CoT gedistilleerde data. Uitgebreide experimenten en analyses gebaseerd op drie basismodellen
over zowel in-domein als out-of-domein benchmarks valideren de effectiviteit van S^2R. Onze code
en data zijn beschikbaar op https://github.com/NineAbyss/S2R.
English
Recent studies have demonstrated the effectiveness of LLM test-time scaling.
However, existing approaches to incentivize LLMs' deep thinking abilities
generally require large-scale data or significant training efforts. Meanwhile,
it remains unclear how to improve the thinking abilities of less powerful base
models. In this work, we introduce S^2R, an efficient framework that enhances
LLM reasoning by teaching models to self-verify and self-correct during
inference. Specifically, we first initialize LLMs with iterative
self-verification and self-correction behaviors through supervised fine-tuning
on carefully curated data. The self-verification and self-correction skills are
then further strengthened by both outcome-level and process-level reinforcement
learning, with minimized resource requirements, enabling the model to
adaptively refine its reasoning process during inference. Our results
demonstrate that, with only 3.1k self-verifying and self-correcting behavior
initialization samples, Qwen2.5-math-7B achieves an accuracy improvement from
51.0\% to 81.6\%, outperforming models trained on an equivalent amount of
long-CoT distilled data. Extensive experiments and analysis based on three base
models across both in-domain and out-of-domain benchmarks validate the
effectiveness of S^2R. Our code and data are available at
https://github.com/NineAbyss/S2R.Summary
AI-Generated Summary