드문 것을 보상하기: LLM의 창의적 문제 해결을 위한 고유성 인식 강화 학습
Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs
January 13, 2026
저자: Zhiyuan Hu, Yucheng Wang, Yufei He, Jiaying Wu, Yilun Zhao, See-Kiong Ng, Cynthia Breazeal, Anh Tuan Luu, Hae Won Park, Bryan Hooi
cs.AI
초록
강화 학습(RL)은 대규모 언어 모델(LLM)의 사후 훈련, 특히 복잡한 추론 작업을 위한 핵심 패러다임으로 자리 잡았으나, 종종 탐색 붕괴 문제를 겪습니다. 즉, 정책이 지나치게 일부 우세한 추론 패턴에 집중하여 pass@1은 향상시키지만 롤아웃 수준의 다양성과 pass@k 향상을 제한합니다. 우리는 이러한 실패가 솔루션 집합의 다양성보다는 지역적 토큰 행동을 규제하는 데서 비롯된다고 주장합니다. 이를 해결하기 위해 우리는 희귀한 고수준 전략을 보이는 올바른 솔루션을 명시적으로 보상하는 롤아웃 수준 목표인 고유성 인식 강화 학습을 제안합니다. 우리의 방법은 LLM 기반 판단자를 사용하여 동일한 문제에 대한 롤아웃을 표면적 변형을 무시하고 고수준 해결 전략에 따라 클러스터링하며, 정책 이점을 클러스터 크기에 반비례하여 재가중합니다. 그 결과, 정확하지만 새로운 전략이 중복된 전략보다 더 높은 보상을 받습니다. 수학, 물리학, 의학 추론 벤치마크 전반에 걸쳐 우리의 접근법은 큰 샘플링 예산에서 pass@k를 꾸준히 향상시키고 pass@1을 희생하지 않으면서 pass@k 곡선 아래 면적(AUC@K)을 증가시키며, 탐색을 지속하고 더 다양한 해결 전략을 대규모로 발견합니다.
English
Reinforcement learning (RL) has become a central paradigm for post-training large language models (LLMs), particularly for complex reasoning tasks, yet it often suffers from exploration collapse: policies prematurely concentrate on a small set of dominant reasoning patterns, improving pass@1 while limiting rollout-level diversity and gains in pass@k. We argue that this failure stems from regularizing local token behavior rather than diversity over sets of solutions. To address this, we propose Uniqueness-Aware Reinforcement Learning, a rollout-level objective that explicitly rewards correct solutions that exhibit rare high-level strategies. Our method uses an LLM-based judge to cluster rollouts for the same problem according to their high-level solution strategies, ignoring superficial variations, and reweights policy advantages inversely with cluster size. As a result, correct but novel strategies receive higher rewards than redundant ones. Across mathematics, physics, and medical reasoning benchmarks, our approach consistently improves pass@k across large sampling budgets and increases the area under the pass@k curve (AUC@K) without sacrificing pass@1, while sustaining exploration and uncovering more diverse solution strategies at scale.