ThinkTwice: Optimización Conjunta de Modelos de Lenguaje Grandes para el Razonamiento y la Auto-refinación

Resumen

Presentamos ThinkTwice, un marco simple de dos fases que optimiza conjuntamente a los LLM para resolver problemas de razonamiento y refinar las respuestas, basado en la Optimización de Políticas Relativas de Grupo (GRPO). En cada par de pasos de entrenamiento, ThinkTwice primero optimiza el modelo para resolver problemas de razonamiento y luego lo optimiza para refinar sus propias soluciones a los mismos problemas, utilizando la misma recompensa binaria de corrección en ambas fases, sin señales de corrección ni anotaciones de crítica. En cinco benchmarks de razonamiento matemático y dos familias de modelos, incluyendo Qwen3-4B y Olmo3-7B, ThinkTwice mejora sustancialmente tanto el rendimiento de razonamiento como de refinamiento en comparación con líneas base competitivas de optimización de políticas en línea. Específicamente, en Qwen3-4B, ThinkTwice supera a GRPO en AIME en 5 puntos porcentuales antes del refinamiento y en 11.5 puntos después de un paso de auto-refinamiento, medido por pass@4. El análisis de la dinámica de entrenamiento de ThinkTwice revela un currículo implícito de rectificar-y-fortalecer: el refinamiento corrige predominantemente errores al inicio del entrenamiento y cambia naturalmente hacia la preservación de soluciones ya correctas a medida que el modelo mejora, produciendo una señal de recompensa más rectificada. Nuestro trabajo establece el entrenamiento conjunto de razonamiento y auto-refinamiento como una metodología fundamentada y efectiva para RLVR.

English

We introduce ThinkTwice, a simple two-phase framework that jointly optimizes LLMs to solve reasoning problems and refine the answers, based on Group Relative Policy Optimization (GRPO). In each pair of training steps, ThinkTwice first optimizes the model on solving reasoning problems, then optimizes it on refining its own solutions to the same problems, using the same binary correctness reward in both phases without correctness signals or critique annotations. Across five mathematical reasoning benchmarks and two model families including Qwen3-4B and Olmo3-7B, ThinkTwice substantially improves both reasoning and refinement performance over competitive online policy optimization baselines. Specifically, on Qwen3-4B, ThinkTwice outperforms GRPO on AIME by 5 percentage points before refinement and by 11.5 points after one self-refinement step, measured by pass@4. Analysis of the training dynamics of ThinkTwice reveals an implicit rectify-then-fortify curriculum: refinement predominantly corrects errors early in training and naturally shifts toward preserving already-correct solutions as the model improves, yielding a more rectified reward signal. Our work establishes joint training of reasoning and self-refinement as a principled and effective methodology for RLVR.

ThinkTwice: Optimización Conjunta de Modelos de Lenguaje Grandes para el Razonamiento y la Auto-refinación

ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

Resumen

Support