ThinkTwice : Optimisation conjointe des modèles de langage de grande taille pour le raisonnement et l'auto-affinage

Résumé

Nous présentons ThinkTwice, un cadre simple à deux phases qui optimise conjointement les LLM pour résoudre des problèmes de raisonnement et affiner les réponses, en s'appuyant sur l'Optimisation de Politique Relative par Groupe (GRPO). À chaque paire d'étapes d'entraînement, ThinkTwice optimise d'abord le modèle sur la résolution de problèmes de raisonnement, puis l'optimise sur l'affinage de ses propres solutions pour les mêmes problèmes, en utilisant la même récompense binaire de justesse dans les deux phases, sans signaux de correction ni annotations critiques. Sur cinq benchmarks de raisonnement mathématique et deux familles de modèles incluant Qwen3-4B et Olmo3-7B, ThinkTwice améliore substantiellement les performances en raisonnement et en affinage par rapport à des bases de référence compétitives d'optimisation de politique en ligne. Concrètement, sur Qwen3-4B, ThinkTwice surpasse GRPO sur AIME de 5 points de pourcentage avant l'affinage et de 11,5 points après une étape d'auto-affinage, mesuré par pass@4. L'analyse de la dynamique d'entraînement de ThinkTwice révèle un curriculum implicite de rectification puis renforcement : l'affinage corrige principalement les erreurs en début d'entraînement et évolue naturellement vers la préservation des solutions déjà correctes à mesure que le modèle s'améliore, produisant un signal de récompense plus rectifié. Notre travail établit l'entraînement conjoint du raisonnement et de l'auto-affinage comme une méthodologie fondée et efficace pour le RLVR.

English

We introduce ThinkTwice, a simple two-phase framework that jointly optimizes LLMs to solve reasoning problems and refine the answers, based on Group Relative Policy Optimization (GRPO). In each pair of training steps, ThinkTwice first optimizes the model on solving reasoning problems, then optimizes it on refining its own solutions to the same problems, using the same binary correctness reward in both phases without correctness signals or critique annotations. Across five mathematical reasoning benchmarks and two model families including Qwen3-4B and Olmo3-7B, ThinkTwice substantially improves both reasoning and refinement performance over competitive online policy optimization baselines. Specifically, on Qwen3-4B, ThinkTwice outperforms GRPO on AIME by 5 percentage points before refinement and by 11.5 points after one self-refinement step, measured by pass@4. Analysis of the training dynamics of ThinkTwice reveals an implicit rectify-then-fortify curriculum: refinement predominantly corrects errors early in training and naturally shifts toward preserving already-correct solutions as the model improves, yielding a more rectified reward signal. Our work establishes joint training of reasoning and self-refinement as a principled and effective methodology for RLVR.

ThinkTwice : Optimisation conjointe des modèles de langage de grande taille pour le raisonnement et l'auto-affinage

ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

Résumé

Support