정확성을 넘어서: 전이를 통한 강건한 추론 학습
Beyond Correctness: Learning Robust Reasoning via Transfer
February 9, 2026
저자: Hyunseok Lee, Soheil Abbasloo, Jihoon Tack, Jinwoo Shin
cs.AI
초록
검증 가능한 보상을 통한 강화 학습(RLVR)은 최근 LLM 추론 능력을 강화했지만, 최종 답변 정확성에만 집중함으로써 중요한 한계를 남겼습니다. 바로 추론 과정 자체의 강건성을 보장하지 못한다는 점입니다. 우리는 '강건한 추론은 이를 생성한 주체를 넘어서도 유용하게 남아야 한다'는 단순한 철학적 관점을 채택하고, 추론을 단절, 재해석, 지속을 견뎌내야 하는 의미 전달의 한 형태로 간주합니다. 이 원칙에 기반하여 우리는 전이가능 보상 강화 학습(RLTR)을 제안합니다. RLTR은 한 모델에서 생성된 부분 추론 접두사가 별개의 모델로 하여금 정답에 도달하도록 안내할 수 있는지 테스트하는 전이 보상을 통해 강건성을 구현합니다. 이는 LLM이 안정적이고 해석 가능하며 진정으로 일반화 가능한 추론을 생성하도록 유도합니다. 우리의 접근 방식은 최종 답변 정확도를 향상시키면서 샘플링 일관성을 개선하며, 상당히 적은 훈련 단계로도 비슷한 성능에 도달합니다. 예를 들어 MATH500에서 RLTR은 RLVR 대비 Maj@64에서 +3.6%p 향상을 달성했으며, RLVR의 평균 정확도를 약 2.5배 더 적은 훈련 단계로 맞췄습니다. 이는 더 신뢰할 수 있는 추론과 상당히 향상된 샘플 효율성을 동시에 제공합니다.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently strengthened LLM reasoning, but its focus on final answer correctness leaves a critical gap: it does not ensure the robustness of the reasoning process itself. We adopt a simple philosophical view, robust reasoning should remain useful beyond the mind that produced it, and treat reasoning as a form of meaning transfer that must survive truncation, reinterpretation, and continuation. Building on this principle, we introduce Reinforcement Learning with Transferable Reward (RLTR), which operationalizes robustness via transfer reward that tests whether a partial reasoning prefix from one model can guide a separate model to the correct answer. This encourages LLMs to produce reasoning that is stable, interpretable, and genuinely generalizable. Our approach improves sampling consistency while improving final answer accuracy, and it reaches comparable performance in substantially fewer training steps. For example, on MATH500, RLTR achieves a +3.6%p gain in Maj@64 compared to RLVR and matches RLVR's average accuracy with roughly 2.5x fewer training steps, providing both more reliable reasoning and significantly more sample efficient.