ChatPaper.aiChatPaper

ThinkTwice: 추론 및 자기 개선을 위해 대규모 언어 모델을 공동 최적화하기

ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

April 2, 2026
저자: Difan Jiao, Qianfeng Wen, Blair Yang, Zhenwei Tang, Ashton Anderson
cs.AI

초록

ThinkTwice는 Group Relative Policy Optimization(GRPO)을 기반으로 추론 문제 해결과 답변 정제를 공동으로 최적화하는 간단한 2단계 프레임워크입니다. 각각의 훈련 단계 쌍에서 ThinkTwice는 먼저 추론 문제 해결에 대한 모델을 최적화한 다음, 동일한 문제에 대한 자체 솔루션을 정제하도록 최적화합니다. 이때 두 단계 모두에서 정확도 신호나 비판 어노테이션 없이 동일한 이진 정확도 보상을 사용합니다. Qwen3-4B와 Olmo3-7B를 포함한 두 가지 모델 패밀리와 5개의 수학적 추론 벤치마크에 걸쳐 ThinkTwice는 경쟁력 있는 온라인 정책 최적화 베이스라인 대비 추론 및 정제 성능을 모두 크게 향상시켰습니다. 구체적으로, Qwen3-4B에서 ThinkTwice는 AIME 기준으로 GRPO보다 정제 전에는 5% 포인트, 1회 자체 정제 후에는 pass@4 기준으로 11.5% 포인트 우수한 성능을 보였습니다. ThinkTwice의 훈련 동역학 분석은 암묵적인 '수정 후 강화' 커리큘럼을 보여줍니다. 즉, 정제는 훈련 초기에는 주로 오류를 수정하다가 모델이 개선됨에 따라 이미 정확한 솔루션을 보존하는 방향으로 자연스럽게 전환되어 더욱 정제된 보상 신호를 제공합니다. 본 연구는 추론과 자기 정제의 공동 훈련을 RLVR을 위한 원칙적이고 효과적인 방법론으로 정립합니다.
English
We introduce ThinkTwice, a simple two-phase framework that jointly optimizes LLMs to solve reasoning problems and refine the answers, based on Group Relative Policy Optimization (GRPO). In each pair of training steps, ThinkTwice first optimizes the model on solving reasoning problems, then optimizes it on refining its own solutions to the same problems, using the same binary correctness reward in both phases without correctness signals or critique annotations. Across five mathematical reasoning benchmarks and two model families including Qwen3-4B and Olmo3-7B, ThinkTwice substantially improves both reasoning and refinement performance over competitive online policy optimization baselines. Specifically, on Qwen3-4B, ThinkTwice outperforms GRPO on AIME by 5 percentage points before refinement and by 11.5 points after one self-refinement step, measured by pass@4. Analysis of the training dynamics of ThinkTwice reveals an implicit rectify-then-fortify curriculum: refinement predominantly corrects errors early in training and naturally shifts toward preserving already-correct solutions as the model improves, yielding a more rectified reward signal. Our work establishes joint training of reasoning and self-refinement as a principled and effective methodology for RLVR.
PDF323April 9, 2026