ChatPaper.aiChatPaper

SR-GRPO: 大規模言語モデルアライメントのための内在的幾何学的報酬としての安定ランク

SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment

December 2, 2025
著者: Yixuan Tang, Yi Yang
cs.AI

要旨

大規模言語モデル(LLMs)を人間の選好に合わせる手法は、一般的に外部の監督に依存しているが、これには重大な限界がある。すなわち、人間による注釈は不足しており主観的であり、報酬モデルは報酬ハッキングの脆弱性を抱え、自己評価手法はプロンプトへの感受性やバイアスの影響を受けやすい。本研究では、モデルの内部表現から導出される、教師信号を必要としない内在的な品質指標である安定ランク(stable rank)を提案する。安定ランクは、隠れ状態の実質的な次元数を、全分散と支配的方向への分散の比を計算することで測定し、情報が表現次元全体にどのように分布するかを通じて品質を捉える。実験では、安定ランクはRewardBenchにおいて84.04%の精度を達成し、Best-of-Nサンプリングを用いた貪欲復号法と比較してタスク精度を平均11.3ポイント向上させた。この知見を活用し、安定ランクを強化学習の報酬信号として利用するStable Rank Group Relative Policy Optimization(SR-GRPO)を導入する。外部監督なしで、SR-GRPOはQwen2.5-1.5B-Instructモデルにおいて、STEMタスクで10%、数学的推論タスクで19%の改善をもたらし、学習済み報酬モデルおよび自己評価ベースライン手法を上回った。我々の発見は、品質信号がモデルの内部的な幾何学的構造から抽出可能であることを示し、外部監督に依存しないスケーラブルなアライメント手法への道筋を提示する。
English
Aligning Large Language Models (LLMs) with human preferences typically relies on external supervision, which faces critical limitations: human annotations are scarce and subjective, reward models are vulnerable to reward hacking, and self-evaluation methods suffer from prompt sensitivity and biases. In this work, we propose stable rank, an intrinsic, annotation-free quality signal derived from model representations. Stable rank measures the effective dimensionality of hidden states by computing the ratio of total variance to dominant-direction variance, capturing quality through how information distributes across representation dimensions. Empirically, stable rank achieves 84.04% accuracy on RewardBench and improves task accuracy by an average of 11.3 percentage points over greedy decoding via Best-of-N sampling. Leveraging this insight, we introduce Stable Rank Group Relative Policy Optimization (SR-GRPO), which uses stable rank as a reward signal for reinforcement learning. Without external supervision, SR-GRPO improves Qwen2.5-1.5B-Instruct by 10% on STEM and 19% on mathematical reasoning, outperforming both learned reward models and self-evaluation baselines. Our findings demonstrate that quality signals can be extracted from internal model geometry, offering a path toward scalable alignment without external supervision.
PDF51December 5, 2025