RLVR의 일반화 한계: 수학적 추론에 관한 두 사례 연구
Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning
October 30, 2025
저자: Md Tanvirul Alam, Nidhi Rastogi
cs.AI
초록
수학적 추론은 올바른 답변뿐만 아니라 신뢰할 수 있는 추론 과정을 요구한다는 점에서 대규모 언어 모델(LLM)의 핵심 과제입니다. 검증 가능한 보상을 활용한 강화 학습(RLVR)은 이러한 능력을 향상시키는 유망한 접근법으로 부상했지만, 진정한 추론 능력을 키울 수 있는지 여부는 여전히 불분명합니다. 본 연구에서는 고유한 최적해를 가진 신중하게 구성된 데이터셋을 사용하여 완전히 검증 가능한 해법을 갖는 두 가지 조합 최적화 문제(활동 스케줄링 및 최장 증가 부분 수열)에 대해 RLVR을 분석합니다. 다양한 보상 설계를 통해 RLVR이 평가 지표는 개선하지만, 새로운 추론 전략을 습득하기보다는 피상적인 휴리스틱을 강화하는 경우가 많다는 사실을 확인했습니다. 이러한 결과는 RLVR의 일반화 한계를 부각시키며, 진정한 수학적 추론과 단순한 단축 해법 활용을 구분하고 진전을 정확히 측정할 수 있는 벤치마크의 중요성을 강조합니다. 코드는 https://github.com/xashru/rlvr-seq-generalization에서 확인할 수 있습니다.
English
Mathematical reasoning is a central challenge for large language models
(LLMs), requiring not only correct answers but also faithful reasoning
processes. Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as
a promising approach for enhancing such capabilities; however, its ability to
foster genuine reasoning remains unclear. We investigate RLVR on two
combinatorial problems with fully verifiable solutions: Activity
Scheduling and the Longest Increasing Subsequence, using carefully
curated datasets with unique optima. Across multiple reward designs, we find
that RLVR improves evaluation metrics but often by reinforcing superficial
heuristics rather than acquiring new reasoning strategies. These findings
highlight the limits of RLVR generalization, emphasizing the importance of
benchmarks that disentangle genuine mathematical reasoning from shortcut
exploitation and provide faithful measures of progress. Code available at
https://github.com/xashru/rlvr-seq-generalization.