ThinkTwice: Gemeinsame Optimierung großer Sprachmodelle für Schlussfolgerungen und Selbstverbesserung

Zusammenfassung

Wir stellen ThinkTwice vor, ein einfaches Zwei-Phasen-Framework, das LLMs gemeinsam dahingehend optimiert, Denkaufgaben zu lösen und die Antworten zu verfeinern, basierend auf Group Relative Policy Optimization (GRPO). In jedem Paar von Trainingsschritten optimiert ThinkTwice zunächst das Modell auf das Lösen von Denkaufgaben und optimiert es anschließend auf die Verfeinerung seiner eigenen Lösungen für dieselben Aufgaben, wobei in beiden Phasen dasselbe binäre Korrektheits-Feedback verwendet wird, ohne Korrektheitssignale oder Kritik-Annotationen. Über fünf mathematische Denkbenchmarks und zwei Modellfamilien hinweg, einschließlich Qwen3-4B und Olmo3-7B, verbessert ThinkTwice die Leistung sowohl beim Schlussfolgern als auch bei der Verfeinerung erheblich im Vergleich zu wettbewerbsfähigen Online-Policy-Optimierungs-Baselines. Konkret übertrifft ThinkTwice auf Qwen3-4B GRPO bei AIME um 5 Prozentpunkte vor der Verfeinerung und um 11,5 Punkte nach einem Selbstverfeinerungsschritt, gemessen an pass@4. Die Analyse der Trainingsdynamik von ThinkTwice offenbart einen impliziten "Korrigieren-und-dann-stärken"-Lernplan: Die Verfeinerung korrigiert vorwiegend Fehler zu Beginn des Trainings und geht natürlicherweise dazu über, bereits korrekte Lösungen zu bewahren, sobald sich das Modell verbessert, was ein korrigierteres Feedback-Signal liefert. Unsere Arbeit etabliert das gemeinsame Training von Schlussfolgerung und Selbstverfeinerung als eine prinzipielle und effektive Methodik für RLVR.

English

We introduce ThinkTwice, a simple two-phase framework that jointly optimizes LLMs to solve reasoning problems and refine the answers, based on Group Relative Policy Optimization (GRPO). In each pair of training steps, ThinkTwice first optimizes the model on solving reasoning problems, then optimizes it on refining its own solutions to the same problems, using the same binary correctness reward in both phases without correctness signals or critique annotations. Across five mathematical reasoning benchmarks and two model families including Qwen3-4B and Olmo3-7B, ThinkTwice substantially improves both reasoning and refinement performance over competitive online policy optimization baselines. Specifically, on Qwen3-4B, ThinkTwice outperforms GRPO on AIME by 5 percentage points before refinement and by 11.5 points after one self-refinement step, measured by pass@4. Analysis of the training dynamics of ThinkTwice reveals an implicit rectify-then-fortify curriculum: refinement predominantly corrects errors early in training and naturally shifts toward preserving already-correct solutions as the model improves, yielding a more rectified reward signal. Our work establishes joint training of reasoning and self-refinement as a principled and effective methodology for RLVR.

ThinkTwice: Gemeinsame Optimierung großer Sprachmodelle für Schlussfolgerungen und Selbstverbesserung

ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

Zusammenfassung

Support