SR-GRPO: Stabiele Rangschikking als Intrinsieke Geometrische Beloning voor de Afstemming van Grote Taalmodellen
SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment
December 2, 2025
Auteurs: Yixuan Tang, Yi Yang
cs.AI
Samenvatting
Het afstemmen van grote taalmodellen (LLM's) op menselijke voorkeuren is doorgaans afhankelijk van externe supervisie, wat met kritieke beperkingen kampt: menselijke annotaties zijn schaars en subjectief, beloningsmodellen zijn kwetsbaar voor 'reward hacking', en zelfevaluatiemethoden lijden onder promptgevoeligheid en vooroordelen. In dit werk stellen we 'stable rank' voor, een intrinsiek, annotatievrij kwaliteitssignaal afgeleid van modelrepresentaties. 'Stable rank' meet de effectieve dimensionaliteit van verborgen toestanden door de verhouding te berekenen tussen de totale variantie en de variantie in de dominante richting, waarbij kwaliteit wordt vastgelegd door hoe informatie zich verdeelt over de representatiedimensies. Empirisch bereikt 'stable rank' een nauwkeurigheid van 84,04% op RewardBench en verbetert het de taaknauwkeurigheid met gemiddeld 11,3 procentpunt ten opzichte van 'greedy decoding' via 'Best-of-N' sampling. Gebruikmakend van dit inzicht, introduceren we 'Stable Rank Group Relative Policy Optimization' (SR-GRPO), dat 'stable rank' gebruikt als een beloningssignaal voor reinforcement learning. Zonder externe supervisie verbetert SR-GRPO Qwen2.5-1.5B-Instruct met 10% op STEM en 19% op wiskundig redeneren, waarmee het zowel geleerde beloningsmodellen als zelfevaluatie-baselines overtreft. Onze bevindingen tonen aan dat kwaliteitssignalen kunnen worden onttrokken aan de interne modelgeometrie, wat een weg biedt naar schaalbare afstemming zonder externe supervisie.
English
Aligning Large Language Models (LLMs) with human preferences typically relies on external supervision, which faces critical limitations: human annotations are scarce and subjective, reward models are vulnerable to reward hacking, and self-evaluation methods suffer from prompt sensitivity and biases. In this work, we propose stable rank, an intrinsic, annotation-free quality signal derived from model representations. Stable rank measures the effective dimensionality of hidden states by computing the ratio of total variance to dominant-direction variance, capturing quality through how information distributes across representation dimensions. Empirically, stable rank achieves 84.04% accuracy on RewardBench and improves task accuracy by an average of 11.3 percentage points over greedy decoding via Best-of-N sampling. Leveraging this insight, we introduce Stable Rank Group Relative Policy Optimization (SR-GRPO), which uses stable rank as a reward signal for reinforcement learning. Without external supervision, SR-GRPO improves Qwen2.5-1.5B-Instruct by 10% on STEM and 19% on mathematical reasoning, outperforming both learned reward models and self-evaluation baselines. Our findings demonstrate that quality signals can be extracted from internal model geometry, offering a path toward scalable alignment without external supervision.