ChatPaper.aiChatPaper

보이지 않는 줄: RLVR가 그 기원에서 벗어나지 못할 수 있는 이유

The Invisible Leash: Why RLVR May Not Escape Its Origin

July 20, 2025
저자: Fang Wu, Weihao Xuan, Ximing Lu, Zaid Harchaoui, Yejin Choi
cs.AI

초록

최근 대규모 추론 모델의 발전은 검증 가능한 보상을 활용한 강화 학습(RLVR)이 복잡한 논리적 과제 해결을 포함한 AI의 능력 향상을 위한 유망한 방법으로 주목받고 있음을 보여줍니다. 그러나 RLVR이 모델의 추론 경계를 진정으로 확장하는지, 아니면 단순히 기본 모델이 이미 알고 있는 높은 보상 출력을 정밀도 향상을 위해 증폭시키는지 여부는 여전히 명확하지 않습니다. 본 연구는 RLVR의 잠재적 한계에 대한 새로운 통찰을 제공하는 이론적 및 실증적 조사를 제시합니다. 먼저, RLVR이 기본 모델의 지원 범위에 의해 제약을 받는다는 새로운 이론적 관점을 제시합니다. 즉, 초기 확률이 0인 해결책을 샘플링할 수 없으며, 완전히 독창적인 해결책의 발견을 제한할 수 있는 보수적인 재가중 메커니즘으로 작동한다는 것입니다. 또한 엔트로피-보상 트레이드오프를 확인했습니다. RLVR이 정밀도를 안정적으로 향상시키는 반면, 탐색을 점차 좁히고 올바르지만 소수로 표현된 해결책을 간과할 가능성이 있습니다. 광범위한 실험을 통해 RLVR이 pass@1을 지속적으로 개선하지만, 더 큰 샘플링 예산 하에서 경험적 지원의 축소가 일반적으로 경험적 지원의 확장을 능가하며, 기본 모델이 이전에 접근 가능했던 정답을 회복하지 못한다는 것을 검증했습니다. 흥미롭게도, RLVR이 때때로 토큰 수준의 엔트로피를 증가시켜 각 생성 단계에서 더 큰 불확실성을 초래하지만, 답변 수준의 엔트로피는 감소하여 이러한 겉보기에 더 불확실한 경로가 궁극적으로 더 작은 집합의 독특한 답변으로 수렴한다는 것을 관찰했습니다. 종합적으로, 이러한 발견들은 RLVR이 추론 지평을 확장하는 데 있어 잠재적 한계를 드러냅니다. 이 보이지 않는 제약을 극복하기 위해서는 명시적인 탐색 메커니즘이나 소수로 표현된 해결 영역에 확률 질량을 부여하는 하이브리드 전략과 같은 미래의 알고리즘 혁신이 필요할 수 있습니다.
English
Recent advances in large reasoning models highlight Reinforcement Learning with Verifiable Rewards (RLVR) as a promising method for enhancing AI's capabilities, particularly in solving complex logical tasks. However, it remains unclear whether RLVR truly expands a model's reasoning boundary or merely amplifies high-reward outputs that the base model already knows for improved precision. This study presents a theoretical and empirical investigation that provides fresh insights into the potential limits of RLVR. First, we offer a new theoretical perspective that RLVR is constrained by the base model's support-unable to sample solutions with zero initial probability-and operates as a conservative reweighting mechanism that may restrict the discovery of entirely original solutions. We also identify an entropy-reward tradeoff: while RLVR reliably enhances precision, it may progressively narrow exploration and potentially overlook correct yet underrepresented solutions. Extensive empirical experiments validate that while RLVR consistently improves pass@1, the shrinkage of empirical support generally outweighs the expansion of empirical support under larger sampling budgets, failing to recover correct answers that were previously accessible to the base model. Interestingly, we also observe that while RLVR sometimes increases token-level entropy, resulting in greater uncertainty at each generation step, answer-level entropy declines, indicating that these seemingly more uncertain paths ultimately converge onto a smaller set of distinct answers. Taken together, these findings reveal potential limits of RLVR in extending reasoning horizons. Breaking this invisible leash may require future algorithmic innovations such as explicit exploration mechanisms or hybrid strategies that seed probability mass into underrepresented solution regions.
PDF839July 22, 2025