ThinkTwice: Otimização Conjunta de Modelos de Linguagem de Grande Porte para Raciocínio e Autorrefinamento

Resumo

Apresentamos o ThinkTwice, uma estrutura simples de duas fases que otimiza conjuntamente LLMs para resolver problemas de raciocínio e refinar as respostas, baseada na Otimização de Política Relativa de Grupo (GRPO). Em cada par de etapas de treinamento, o ThinkTwice primeiro otimiza o modelo na resolução de problemas de raciocínio e, em seguida, otimiza-o no refinamento de suas próprias soluções para os mesmos problemas, utilizando a mesma recompensa binária de correção em ambas as fases, sem sinais de correção ou anotações de crítica. Em cinco benchmarks de raciocínio matemático e duas famílias de modelos, incluindo Qwen3-4B e Olmo3-7B, o ThinkTwice melhora substancialmente o desempenho tanto no raciocínio quanto no refinamento em comparação com linhas de base competitivas de otimização de política online. Especificamente, no Qwen3-4B, o ThinkTwice supera o GRPO no AIME em 5 pontos percentuais antes do refinamento e em 11,5 pontos após uma etapa de autorrefinamento, medido por pass@4. A análise da dinâmica de treinamento do ThinkTwice revela um currículo implícito de retificar-e-fortificar: o refinamento predominantemente corrige erros no início do treinamento e muda naturalmente para a preservação de soluções já corretas à medida que o modelo melhora, produzindo um sinal de recompensa mais retificado. Nosso trabalho estabelece o treinamento conjunto de raciocínio e autorrefinamento como uma metodologia fundamentada e eficaz para RLVR.

English

We introduce ThinkTwice, a simple two-phase framework that jointly optimizes LLMs to solve reasoning problems and refine the answers, based on Group Relative Policy Optimization (GRPO). In each pair of training steps, ThinkTwice first optimizes the model on solving reasoning problems, then optimizes it on refining its own solutions to the same problems, using the same binary correctness reward in both phases without correctness signals or critique annotations. Across five mathematical reasoning benchmarks and two model families including Qwen3-4B and Olmo3-7B, ThinkTwice substantially improves both reasoning and refinement performance over competitive online policy optimization baselines. Specifically, on Qwen3-4B, ThinkTwice outperforms GRPO on AIME by 5 percentage points before refinement and by 11.5 points after one self-refinement step, measured by pass@4. Analysis of the training dynamics of ThinkTwice reveals an implicit rectify-then-fortify curriculum: refinement predominantly corrects errors early in training and naturally shifts toward preserving already-correct solutions as the model improves, yielding a more rectified reward signal. Our work establishes joint training of reasoning and self-refinement as a principled and effective methodology for RLVR.

ThinkTwice: Otimização Conjunta de Modelos de Linguagem de Grande Porte para Raciocínio e Autorrefinamento

ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

Resumo

Support