ThinkTwice: Совместная оптимизация больших языковых моделей для логического вывода и самосовершенствования

Аннотация

Мы представляем ThinkTwice — простую двухфазную структуру, которая совместно оптимизирует большие языковые модели (LLM) для решения логических задач и улучшения ответов на основе метода групповой относительной оптимизации политики (GRPO). На каждой паре шагов обучения ThinkTwice сначала оптимизирует модель для решения задач, а затем оптимизирует её для улучшения собственных решений тех же задач, используя в обеих фазах бинарное вознаграждение за правильность без сигналов корректности или аннотаций критики. На пяти наборах данных по математическим рассуждениям и для двух семейств моделей, включая Qwen3-4B и Olmo3-7B, ThinkTwice значительно улучшает как результаты рассуждений, так и эффективность улучшения по сравнению с конкурентоспособными базовыми методами онлайн-оптимизации политики. В частности, для модели Qwen3-4B ThinkTwice превосходит GRPO на тесте AIME на 5 процентных пунктов до улучшения и на 11,5 пунктов после одного шага саморефлексии, измеряемых по метрике pass@4. Анализ динамики обучения ThinkTwice выявляет неявную учебную программу «исправить, затем укрепить»: на ранних этапах обучения улучшение в основном исправляет ошибки, а по мере роста качества модели естественным образом смещается в сторону сохранения уже правильных решений, что даёт более скорректированный сигнал вознаграждения. Наша работа устанавливает совместное обучение рассуждениям и саморефлексии в качестве принципиального и эффективного метода для RLVR.

English

We introduce ThinkTwice, a simple two-phase framework that jointly optimizes LLMs to solve reasoning problems and refine the answers, based on Group Relative Policy Optimization (GRPO). In each pair of training steps, ThinkTwice first optimizes the model on solving reasoning problems, then optimizes it on refining its own solutions to the same problems, using the same binary correctness reward in both phases without correctness signals or critique annotations. Across five mathematical reasoning benchmarks and two model families including Qwen3-4B and Olmo3-7B, ThinkTwice substantially improves both reasoning and refinement performance over competitive online policy optimization baselines. Specifically, on Qwen3-4B, ThinkTwice outperforms GRPO on AIME by 5 percentage points before refinement and by 11.5 points after one self-refinement step, measured by pass@4. Analysis of the training dynamics of ThinkTwice reveals an implicit rectify-then-fortify curriculum: refinement predominantly corrects errors early in training and naturally shifts toward preserving already-correct solutions as the model improves, yielding a more rectified reward signal. Our work establishes joint training of reasoning and self-refinement as a principled and effective methodology for RLVR.

ThinkTwice: Совместная оптимизация больших языковых моделей для логического вывода и самосовершенствования

ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

Аннотация

Support