SR-GRPO : Le Rang Stable comme Récompense Géométrique Intrinsèque pour l'Alignement des Grands Modèles de Langage
SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment
December 2, 2025
papers.authors: Yixuan Tang, Yi Yang
cs.AI
papers.abstract
L'alignement des grands modèles de langage (LLM) avec les préférences humaines repose généralement sur une supervision externe, qui présente des limites critiques : les annotations humaines sont rares et subjectives, les modèles de récompense sont vulnérables au détournement de récompense, et les méthodes d'auto-évaluation souffrent de sensibilité aux prompts et de biais. Dans ce travail, nous proposons le rang stable, un signal de qualité intrinsèque et sans annotation dérivé des représentations du modèle. Le rang stable mesure la dimension effective des états cachés en calculant le ratio de la variance totale sur la variance dans la direction dominante, capturant la qualité via la manière dont l'information se répartit entre les dimensions de représentation. Empiriquement, le rang stable atteint une précision de 84,04 % sur RewardBench et améliore la précision des tâches de 11,3 points de pourcentage en moyenne par rapport au décodage glouton via un échantillonnage Best-of-N. En tirant parti de cette idée, nous introduisons l'Optimisation de Politique Relative par Groupe de Rangs Stables (SR-GRPO), qui utilise le rang stable comme signal de récompense pour l'apprentissage par renforcement. Sans supervision externe, SR-GRPO améliore les performances de Qwen2.5-1.5B-Instruct de 10 % sur les STEM et de 19 % sur le raisonnement mathématique, surpassant à la fois les modèles de récompense appris et les lignes de base en auto-évaluation. Nos résultats démontrent que des signaux de qualité peuvent être extraits de la géométrie interne du modèle, ouvrant une voie vers un alignement scalable sans supervision externe.
English
Aligning Large Language Models (LLMs) with human preferences typically relies on external supervision, which faces critical limitations: human annotations are scarce and subjective, reward models are vulnerable to reward hacking, and self-evaluation methods suffer from prompt sensitivity and biases. In this work, we propose stable rank, an intrinsic, annotation-free quality signal derived from model representations. Stable rank measures the effective dimensionality of hidden states by computing the ratio of total variance to dominant-direction variance, capturing quality through how information distributes across representation dimensions. Empirically, stable rank achieves 84.04% accuracy on RewardBench and improves task accuracy by an average of 11.3 percentage points over greedy decoding via Best-of-N sampling. Leveraging this insight, we introduce Stable Rank Group Relative Policy Optimization (SR-GRPO), which uses stable rank as a reward signal for reinforcement learning. Without external supervision, SR-GRPO improves Qwen2.5-1.5B-Instruct by 10% on STEM and 19% on mathematical reasoning, outperforming both learned reward models and self-evaluation baselines. Our findings demonstrate that quality signals can be extracted from internal model geometry, offering a path toward scalable alignment without external supervision.