SR-GRPO: 대규모 언어 모델 정렬을 위한 본질적 기하학적 보상으로서의 안정적 계수
SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment
December 2, 2025
저자: Yixuan Tang, Yi Yang
cs.AI
초록
대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 작업은 일반적으로 외부 감독에 의존하는데, 이는 중요한 한계에 직면해 있습니다: 인간의 주해는 부족하고 주관적이며, 보상 모델은 보상 해킹에 취약하고, 자기 평가 방법은 프롬프트 민감성과 편향에 시달립니다. 본 연구에서는 모델 표현에서 도출된 내재적이며 주해가 필요 없는 품질 신호인 stable rank를 제안합니다. Stable rank는 전체 분산과 주 방향 분산의 비율을 계산하여 은닉 상태의 효과적 차원을 측정함으로써, 정보가 표현 차원에 걸쳐 어떻게 분포하는지를 통해 품질을 포착합니다. 실험적으로 stable rank는 RewardBench에서 84.04%의 정확도를 달성하고, Best-of-N 샘플링을 통한 탐욕적 디코딩보다 작업 정확도를 평균 11.3%p 향상시켰습니다. 이러한 통찰력을 활용하여, 강화 학습을 위한 보상 신호로 stable rank를 사용하는 Stable Rank Group Relative Policy Optimization(SR-GRPO)을 소개합니다. 외부 감독 없이 SR-GRPO는 Qwen2.5-1.5B-Instruct 모델의 STEM 성능을 10%, 수리 추론 성능을 19% 향상시켜, 학습된 보상 모델과 자기 평가 기준선을 모두 능가했습니다. 우리의 연구 결과는 품질 신호가 모델의 내부 기하학적 구조에서 추출될 수 있음을 보여주며, 외부 감독 없이 확장 가능한 정렬(alignment)을 위한 길을 제시합니다.
English
Aligning Large Language Models (LLMs) with human preferences typically relies on external supervision, which faces critical limitations: human annotations are scarce and subjective, reward models are vulnerable to reward hacking, and self-evaluation methods suffer from prompt sensitivity and biases. In this work, we propose stable rank, an intrinsic, annotation-free quality signal derived from model representations. Stable rank measures the effective dimensionality of hidden states by computing the ratio of total variance to dominant-direction variance, capturing quality through how information distributes across representation dimensions. Empirically, stable rank achieves 84.04% accuracy on RewardBench and improves task accuracy by an average of 11.3 percentage points over greedy decoding via Best-of-N sampling. Leveraging this insight, we introduce Stable Rank Group Relative Policy Optimization (SR-GRPO), which uses stable rank as a reward signal for reinforcement learning. Without external supervision, SR-GRPO improves Qwen2.5-1.5B-Instruct by 10% on STEM and 19% on mathematical reasoning, outperforming both learned reward models and self-evaluation baselines. Our findings demonstrate that quality signals can be extracted from internal model geometry, offering a path toward scalable alignment without external supervision.