SR-GRPO: Il Rango Stabile come Ricompensa Geometrica Intrinseca per l'Allineamento dei Modelli Linguistici di Grande Dimensione
SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment
December 2, 2025
Autori: Yixuan Tang, Yi Yang
cs.AI
Abstract
L'allineamento dei Large Language Model (LLM) con le preferenze umane si basa tipicamente su supervisione esterna, la quale presenta limitazioni critiche: le annotazioni umane sono scarse e soggettive, i modelli di ricompensa sono vulnerabili al reward hacking, e i metodi di autovalutazione soffrono di sensibilità ai prompt e di distorsioni. In questo lavoro, proponiamo lo stable rank, un segnale di qualità intrinseco e privo di annotazioni, derivato dalle rappresentazioni del modello. Lo stable rank misura la dimensionalità effettiva degli stati nascosti calcolando il rapporto tra la varianza totale e la varianza nella direzione dominante, catturando la qualità attraverso la modalità in cui l'informazione si distribuisce tra le dimensioni della rappresentazione. Empiricamente, lo stable rank raggiunge un'accuratezza dell'84.04% su RewardBench e migliora l'accuratezza del compito in media di 11.3 punti percentuali rispetto al greedy decoding tramite il campionamento Best-of-N. Sfruttando questa intuizione, introduciamo lo Stable Rank Group Relative Policy Optimization (SR-GRPO), che utilizza lo stable rank come segnale di ricompensa per l'apprendimento per rinforzo. Senza supervisione esterna, SR-GRPO migliora Qwen2.5-1.5B-Instruct del 10% su compiti STEM e del 19% sul ragionamento matematico, superando sia i modelli di ricompensa appresi che i baseline di autovalutazione. I nostri risultati dimostrano che segnali di qualità possono essere estratti dalla geometria interna del modello, offrendo una strada verso un allineamento scalabile senza supervisione esterna.
English
Aligning Large Language Models (LLMs) with human preferences typically relies on external supervision, which faces critical limitations: human annotations are scarce and subjective, reward models are vulnerable to reward hacking, and self-evaluation methods suffer from prompt sensitivity and biases. In this work, we propose stable rank, an intrinsic, annotation-free quality signal derived from model representations. Stable rank measures the effective dimensionality of hidden states by computing the ratio of total variance to dominant-direction variance, capturing quality through how information distributes across representation dimensions. Empirically, stable rank achieves 84.04% accuracy on RewardBench and improves task accuracy by an average of 11.3 percentage points over greedy decoding via Best-of-N sampling. Leveraging this insight, we introduce Stable Rank Group Relative Policy Optimization (SR-GRPO), which uses stable rank as a reward signal for reinforcement learning. Without external supervision, SR-GRPO improves Qwen2.5-1.5B-Instruct by 10% on STEM and 19% on mathematical reasoning, outperforming both learned reward models and self-evaluation baselines. Our findings demonstrate that quality signals can be extracted from internal model geometry, offering a path toward scalable alignment without external supervision.