ChatPaper.aiChatPaper

하이브리드 강화 학습: 보상이 희소할 때는 밀집된 접근이 더 효과적이다

Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense

October 8, 2025
저자: Leitian Tao, Ilia Kulikov, Swarnadeep Saha, Tianlu Wang, Jing Xu, Yixuan Li, Jason E Weston, Ping Yu
cs.AI

초록

대규모 언어 모델(LLM)의 추론을 위한 사후 훈련은 점차 검증 가능한 보상, 즉 0-1 정확도 신호를 제공하는 결정론적 검사기에 의존하고 있다. 이러한 이진 피드백은 신뢰할 수 있지만 취약한데, 많은 과제가 부분적으로 정답이거나 대체 답안을 허용하는 반면 검증기는 이를 과소평가하며, 결과적으로 전부 아니면 전무(all-or-nothing) 방식의 감독은 학습을 제한한다. 보상 모델은 더 풍부하고 연속적인 피드백을 제공하며, 이는 검증기에 대한 보완적인 감독 신호로 활용될 수 있다. 본 연구에서는 검증기 신호와 보상 모델 점수를 구조화된 방식으로 통합한 강화 학습 프레임워크인 HERO(Hybrid Ensemble Reward Optimization)를 소개한다. HERO는 검증기 정의 그룹 내에서 보상 모델 점수를 제한하는 계층적 정규화를 사용하여 정확성을 유지하면서 품질 차이를 세밀하게 조정하고, 밀집 신호가 가장 중요한 어려운 프롬프트를 강조하기 위해 분산 인식 가중치를 적용한다. 다양한 수학적 추론 벤치마크에서 HERO는 보상 모델만 사용하거나 검증기만 사용하는 기준선을 일관되게 능가하며, 검증 가능한 과제와 검증하기 어려운 과제 모두에서 강력한 성과를 보인다. 본 연구 결과는 하이브리드 보상 설계가 검증기의 안정성을 유지하면서 보상 모델의 미묘한 차이를 활용하여 추론을 발전시킬 수 있음을 보여준다.
English
Post-training for reasoning of large language models (LLMs) increasingly relies on verifiable rewards: deterministic checkers that provide 0-1 correctness signals. While reliable, such binary feedback is brittle--many tasks admit partially correct or alternative answers that verifiers under-credit, and the resulting all-or-nothing supervision limits learning. Reward models offer richer, continuous feedback, which can serve as a complementary supervisory signal to verifiers. We introduce HERO (Hybrid Ensemble Reward Optimization), a reinforcement learning framework that integrates verifier signals with reward-model scores in a structured way. HERO employs stratified normalization to bound reward-model scores within verifier-defined groups, preserving correctness while refining quality distinctions, and variance-aware weighting to emphasize challenging prompts where dense signals matter most. Across diverse mathematical reasoning benchmarks, HERO consistently outperforms RM-only and verifier-only baselines, with strong gains on both verifiable and hard-to-verify tasks. Our results show that hybrid reward design retains the stability of verifiers while leveraging the nuance of reward models to advance reasoning.
PDF272October 10, 2025