SR-GRPO: Stablerang als intrinsische geometrische Belohnung für die Ausrichtung großer Sprachmodelle
SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment
December 2, 2025
papers.authors: Yixuan Tang, Yi Yang
cs.AI
papers.abstract
Die Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen basiert typischerweise auf externer Überwachung, die mit kritischen Einschränkungen konfrontiert ist: Menschliche Annotationen sind knapp und subjektiv, Belohnungsmodelle sind anfällig für Reward Hacking, und Selbstbewertungsmethoden leiden unter Prompt-Abhängigkeit und Verzerrungen. In dieser Arbeit schlagen wir den stabilen Rang vor, ein intrinsisches, annotationsfreies Qualitätssignal, das aus Modellrepräsentationen abgeleitet wird. Der stabile Rang misst die effektive Dimensionalität versteckter Zustände durch Berechnung des Verhältnisses von Gesamtvarianz zur Varianz in der Hauptrichtung und erfasst Qualität darüber, wie sich Informationen über Repräsentationsdimensionen verteilt. Empirisch erreicht der stabile Rang 84,04 % Genauigkeit auf RewardBench und verbessert die Aufgabengenauigkeit im Durchschnitt um 11,3 Prozentpunkte gegenüber gieriger Decodierung via Best-of-N-Sampling. Aufbauend auf dieser Erkenntnis führen wir Stable Rank Group Relative Policy Optimization (SR-GRPO) ein, das den stabilen Rang als Belohnungssignal für bestärkendes Lernen nutzt. Ohne externe Überwachung verbessert SR-GRPO Qwen2.5-1.5B-Instruct um 10 % in MINT-Fächern und 19 % im mathematischen Denken und übertrifft damit sowohl gelernte Belohnungsmodelle als auch Selbstbewertungs-Baselines. Unsere Ergebnisse zeigen, dass Qualitätssignale aus der internen Modellgeometrie extrahiert werden können, was einen Weg zu skalierbarer Ausrichtung ohne externe Überwachung eröffnet.
English
Aligning Large Language Models (LLMs) with human preferences typically relies on external supervision, which faces critical limitations: human annotations are scarce and subjective, reward models are vulnerable to reward hacking, and self-evaluation methods suffer from prompt sensitivity and biases. In this work, we propose stable rank, an intrinsic, annotation-free quality signal derived from model representations. Stable rank measures the effective dimensionality of hidden states by computing the ratio of total variance to dominant-direction variance, capturing quality through how information distributes across representation dimensions. Empirically, stable rank achieves 84.04% accuracy on RewardBench and improves task accuracy by an average of 11.3 percentage points over greedy decoding via Best-of-N sampling. Leveraging this insight, we introduce Stable Rank Group Relative Policy Optimization (SR-GRPO), which uses stable rank as a reward signal for reinforcement learning. Without external supervision, SR-GRPO improves Qwen2.5-1.5B-Instruct by 10% on STEM and 19% on mathematical reasoning, outperforming both learned reward models and self-evaluation baselines. Our findings demonstrate that quality signals can be extracted from internal model geometry, offering a path toward scalable alignment without external supervision.