ThinkTwice: Gezamenlijke optimalisatie van grote taalmodellen voor redeneren en zelfverbetering

Samenvatting

Wij introduceren ThinkTwice, een eenvoudig tweefasenraamwerk dat grote taalmodellen (LLMs) gezamenlijk optimaliseert om redeneerproblemen op te lossen en de antwoorden te verfijnen, gebaseerd op Group Relative Policy Optimization (GRPO). In elk paar trainingsstappen optimaliseert ThinkTwice eerst het model voor het oplossen van redeneerproblemen, en vervolgens optimaliseert het het model voor het verfijnen van zijn eigen oplossingen voor dezelfde problemen. Hierbij wordt in beide fasen dezelfde binaire correctheidsbeloning gebruikt, zonder correctheidssignalen of kritiekannotaties. Op vijf wiskundige redeneerbenchmarks en twee modelfamilies, waaronder Qwen3-4B en Olmo3-7B, verbetert ThinkTwice zowel de redeneer- als de verfijningsprestaties aanzienlijk in vergelijking met competitieve online policy-optimalisatie-baselines. Specifiek presteert ThinkTwice op Qwen3-4B, gemeten met pass@4, 5 procentpunt beter dan GRPO op AIME vóór verfijning en 11,5 punten beter na één zelfverfijningsstap. Analyse van de traingsdynamiek van ThinkTwice onthult een impliciet 'corrigeer-en-versterk'-curriculum: verfijning corrigeert aanvankelijk vooral fouten en verschuift naarmate het model verbetert van nature naar het behouden van reeds correcte oplossingen, wat een meer gecorrigeerd beloningssignaal oplevert. Ons werk vestigt de gezamenlijke training van redeneren en zelfverfijning als een principiële en effectieve methodologie voor RLVR (Reinforcement Learning from Verifier Feedback).

English

We introduce ThinkTwice, a simple two-phase framework that jointly optimizes LLMs to solve reasoning problems and refine the answers, based on Group Relative Policy Optimization (GRPO). In each pair of training steps, ThinkTwice first optimizes the model on solving reasoning problems, then optimizes it on refining its own solutions to the same problems, using the same binary correctness reward in both phases without correctness signals or critique annotations. Across five mathematical reasoning benchmarks and two model families including Qwen3-4B and Olmo3-7B, ThinkTwice substantially improves both reasoning and refinement performance over competitive online policy optimization baselines. Specifically, on Qwen3-4B, ThinkTwice outperforms GRPO on AIME by 5 percentage points before refinement and by 11.5 points after one self-refinement step, measured by pass@4. Analysis of the training dynamics of ThinkTwice reveals an implicit rectify-then-fortify curriculum: refinement predominantly corrects errors early in training and naturally shifts toward preserving already-correct solutions as the model improves, yielding a more rectified reward signal. Our work establishes joint training of reasoning and self-refinement as a principled and effective methodology for RLVR.

ThinkTwice: Gezamenlijke optimalisatie van grote taalmodellen voor redeneren en zelfverbetering

ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

Samenvatting

Support