ThinkTwice: Ottimizzazione Congiunta di Modelli Linguistici di Grandi Dimensioni per il Ragionamento e l'Autorifinitura
ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement
April 2, 2026
Autori: Difan Jiao, Qianfeng Wen, Blair Yang, Zhenwei Tang, Ashton Anderson
cs.AI
Abstract
Introduciamo ThinkTwice, un semplice framework a due fasi che ottimizza congiuntamente gli LLM per risolvere problemi di ragionamento e perfezionare le risposte, basandosi sull'ottimizzazione della politica relativa di gruppo (GRPO). In ogni coppia di passi di addestramento, ThinkTwice ottimizza prima il modello sulla risoluzione di problemi di ragionamento, per poi ottimizzarlo sul perfezionamento delle proprie soluzioni agli stessi problemi, utilizzando la stessa ricompensa binaria di correttezza in entrambe le fasi, senza segnali di correttezza o annotazioni di critica. Attraverso cinque benchmark di ragionamento matematico e due famiglie di modelli, tra cui Qwen3-4B e Olmo3-7B, ThinkTwice migliora sostanzialmente sia le prestazioni di ragionamento che di raffinamento rispetto a baseline competitive di ottimizzazione della politica online. In particolare, su Qwen3-4B, ThinkTwice supera il GRPO su AIME di 5 punti percentuali prima del perfezionamento e di 11,5 punti dopo un passo di auto-perfezionamento, misurato con pass@4. L'analisi della dinamica di addestramento di ThinkTwice rivela un curriculum implicito di correzione-e-rafforzamento: il perfezionamento corregge prevalentemente gli errori all'inizio dell'addestramento e si sposta naturalmente verso la conservazione delle soluzioni già corrette man mano che il modello migliora, producendo un segnale di ricompensa più rettificato. Il nostro lavoro stabilisce l'addestramento congiunto del ragionamento e dell'auto-perfezionamento come una metodologia principiata ed efficace per il RLVR.
English
We introduce ThinkTwice, a simple two-phase framework that jointly optimizes LLMs to solve reasoning problems and refine the answers, based on Group Relative Policy Optimization (GRPO). In each pair of training steps, ThinkTwice first optimizes the model on solving reasoning problems, then optimizes it on refining its own solutions to the same problems, using the same binary correctness reward in both phases without correctness signals or critique annotations. Across five mathematical reasoning benchmarks and two model families including Qwen3-4B and Olmo3-7B, ThinkTwice substantially improves both reasoning and refinement performance over competitive online policy optimization baselines. Specifically, on Qwen3-4B, ThinkTwice outperforms GRPO on AIME by 5 percentage points before refinement and by 11.5 points after one self-refinement step, measured by pass@4. Analysis of the training dynamics of ThinkTwice reveals an implicit rectify-then-fortify curriculum: refinement predominantly corrects errors early in training and naturally shifts toward preserving already-correct solutions as the model improves, yielding a more rectified reward signal. Our work establishes joint training of reasoning and self-refinement as a principled and effective methodology for RLVR.