SR-GRPO: Classificação Estável como Recompensa Geométrica Intrínseca para o Alinhamento de Modelos de Linguagem de Grande Porte

Resumo

O alinhamento de Grandes Modelos de Linguagem (LLMs) com as preferências humanas geralmente depende de supervisão externa, que enfrenta limitações críticas: anotações humanas são escassas e subjetivas, modelos de recompensa são vulneráveis a manipulação de recompensas, e métodos de autoavaliação sofrem com sensibilidade a prompts e vieses. Neste trabalho, propomos o posto estável, um sinal de qualidade intrínseco e livre de anotações derivado das representações do modelo. O posto estável mede a dimensionalidade efetiva dos estados ocultos calculando a razão entre a variância total e a variância da direção dominante, capturando a qualidade através da forma como a informação se distribui pelas dimensões da representação. Empiricamente, o posto estável alcança 84,04% de precisão no RewardBench e melhora a precisão da tarefa em média 11,3 pontos percentuais sobre a decodificação gulosa via amostragem Best-of-N. Aproveitando essa percepção, introduzimos a Otimização de Política Relativa de Grupo por Posto Estável (SR-GRPO), que usa o posto estável como sinal de recompensa para aprendizado por reforço. Sem supervisão externa, o SR-GRPO melhora o Qwen2.5-1.5B-Instruct em 10% em STEM e 19% em raciocínio matemático, superando tanto modelos de recompensa aprendidos quanto baselines de autoavaliação. Nossos achados demonstram que sinais de qualidade podem ser extraídos da geometria interna do modelo, oferecendo um caminho para o alinhamento escalável sem supervisão externa.

English

Aligning Large Language Models (LLMs) with human preferences typically relies on external supervision, which faces critical limitations: human annotations are scarce and subjective, reward models are vulnerable to reward hacking, and self-evaluation methods suffer from prompt sensitivity and biases. In this work, we propose stable rank, an intrinsic, annotation-free quality signal derived from model representations. Stable rank measures the effective dimensionality of hidden states by computing the ratio of total variance to dominant-direction variance, capturing quality through how information distributes across representation dimensions. Empirically, stable rank achieves 84.04% accuracy on RewardBench and improves task accuracy by an average of 11.3 percentage points over greedy decoding via Best-of-N sampling. Leveraging this insight, we introduce Stable Rank Group Relative Policy Optimization (SR-GRPO), which uses stable rank as a reward signal for reinforcement learning. Without external supervision, SR-GRPO improves Qwen2.5-1.5B-Instruct by 10% on STEM and 19% on mathematical reasoning, outperforming both learned reward models and self-evaluation baselines. Our findings demonstrate that quality signals can be extracted from internal model geometry, offering a path toward scalable alignment without external supervision.

SR-GRPO: Classificação Estável como Recompensa Geométrica Intrínseca para o Alinhamento de Modelos de Linguagem de Grande Porte

SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment

Resumo

Support