Selbstbelohnende Korrektur für mathematisches Denken
Self-rewarding correction for mathematical reasoning
February 26, 2025
Autoren: Wei Xiong, Hanning Zhang, Chenlu Ye, Lichang Chen, Nan Jiang, Tong Zhang
cs.AI
Zusammenfassung
Wir untersuchen selbstbelohnende Reasoning-Modelle für große Sprachmodelle (LLMs), die während der Inferenzzeit gleichzeitig schrittweise Argumentationen generieren und die Korrektheit ihrer Ausgaben bewerten können – ohne externes Feedback. Dieser integrierte Ansatz ermöglicht es einem einzelnen Modell, seinen Reasoning-Prozess eigenständig zu steuern, was rechnerische Vorteile für die Modellbereitstellung bietet. Wir konzentrieren uns insbesondere auf die repräsentative Aufgabe der Selbstkorrektur, bei der Modelle Fehler in ihren Antworten autonom erkennen, Ausgaben überarbeiten und entscheiden, wann iterative Verfeinerungsschleifen beendet werden sollen. Um dies zu ermöglichen, schlagen wir einen zweistufigen algorithmischen Rahmen vor, um selbstbelohnende Reasoning-Modelle ausschließlich mit selbstgenerierten Daten zu konstruieren. In der ersten Stufe verwenden wir sequenzielles Rejection Sampling, um lange Chain-of-Thought-Trajektorien zu synthetisieren, die sowohl Selbstbelohnungs- als auch Selbstkorrekturmechanismen integrieren. Das Feinabstimmen von Modellen anhand dieser kuratierten Daten ermöglicht es ihnen, die Muster der Selbstbelohnung und Selbstkorrektur zu erlernen. In der zweiten Stufe verbessern wir die Fähigkeit der Modelle, die Genauigkeit von Antworten zu bewerten und Ausgaben zu verfeinern, durch Reinforcement Learning mit regelbasierten Signalen. Experimente mit Llama-3 und Qwen-2.5 zeigen, dass unser Ansatz die intrinsischen Selbstkorrekturfähigkeiten übertrifft und eine Leistung erzielt, die mit Systemen vergleichbar ist, die auf externen Belohnungsmodellen basieren.
English
We study self-rewarding reasoning large language models (LLMs), which can
simultaneously generate step-by-step reasoning and evaluate the correctness of
their outputs during the inference time-without external feedback. This
integrated approach allows a single model to independently guide its reasoning
process, offering computational advantages for model deployment. We
particularly focus on the representative task of self-correction, where models
autonomously detect errors in their responses, revise outputs, and decide when
to terminate iterative refinement loops. To enable this, we propose a
two-staged algorithmic framework for constructing self-rewarding reasoning
models using only self-generated data. In the first stage, we employ sequential
rejection sampling to synthesize long chain-of-thought trajectories that
incorporate both self-rewarding and self-correction mechanisms. Fine-tuning
models on these curated data allows them to learn the patterns of
self-rewarding and self-correction. In the second stage, we further enhance the
models' ability to assess response accuracy and refine outputs through
reinforcement learning with rule-based signals. Experiments with Llama-3 and
Qwen-2.5 demonstrate that our approach surpasses intrinsic self-correction
capabilities and achieves performance comparable to systems that rely on
external reward models.Summary
AI-Generated Summary