추론 형성을 통한 과도한 사고 완화
Mitigating Overthinking through Reasoning Shaping
October 10, 2025
저자: Feifan Song, Shaohang Wei, Bofei Gao, Yejie Wang, Wen Luo, Wei Li, Linli Yao, Weimin Xiong, Liang Chen, Tianyu Liu, Houfeng Wang
cs.AI
초록
검증자 보상 강화 학습(RLVR)으로 강화된 대형 추론 모델(LRMs)은 문제 해결에서 강력한 성능을 보여주지만, 종종 과도한 사고(overthinking)를 유발합니다. 이는 불필요하게 길고 산만한 추론으로 인해 계산 비용이 증가하는 현상입니다. 기존의 RLVR 패널티 설계는 토큰 소비를 줄이는 데는 성공했지만, 모델 성능을 저하시키는 경우가 많았는데, 이는 토큰 수준의 지도(supervision)가 지나치게 단순했기 때문입니다. 본 논문에서는 지도의 세분화(granularity)가 효율성과 정확성의 균형을 맞추는 데 중요한 역할을 한다고 주장하며, 추론을 규제하기 위한 단계별 방법인 그룹 상대 세그먼트 패널티(GRSP)를 제안합니다. 예비 분석 결과, 추론 세그먼트는 토큰 소비와 모델 성능과 강한 상관관계가 있음이 확인되었기 때문에, 우리는 세그먼트 클러스터 간의 길이 인식 가중치 메커니즘을 설계했습니다. 광범위한 실험을 통해 GRSP가 정확성을 크게 저하시키지 않으면서도 우수한 토큰 효율성을 달성하며, 특히 더 어려운 문제에서 그 장점이 두드러짐을 입증했습니다. 또한, GRSP는 RL 훈련을 안정화하고 모델 크기에 효과적으로 확장됩니다.
English
Large reasoning models (LRMs) boosted by Reinforcement Learning from Verifier
Reward (RLVR) have shown great power in problem solving, yet they often cause
overthinking: excessive, meandering reasoning that inflates computational cost.
Prior designs of penalization in RLVR manage to reduce token consumption while
often harming model performance, which arises from the oversimplicity of
token-level supervision. In this paper, we argue that the granularity of
supervision plays a crucial role in balancing efficiency and accuracy, and
propose Group Relative Segment Penalization (GRSP), a step-level method to
regularize reasoning. Since preliminary analyses show that reasoning segments
are strongly correlated with token consumption and model performance, we design
a length-aware weighting mechanism across segment clusters. Extensive
experiments demonstrate that GRSP achieves superior token efficiency without
heavily compromising accuracy, especially the advantages with harder problems.
Moreover, GRSP stabilizes RL training and scales effectively across model
sizes.