ChatPaper.aiChatPaper

SR-GRPO: El Rango Estable como Recompensa Geométrica Intrínseca para la Alineación de Modelos de Lenguaje a Gran Escala

SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment

December 2, 2025
Autores: Yixuan Tang, Yi Yang
cs.AI

Resumen

La alineación de los Modelos de Lenguaje Grandes (LLM) con las preferencias humanas generalmente depende de supervisión externa, lo que enfrenta limitaciones críticas: las anotaciones humanas son escasas y subjetivas, los modelos de recompensa son vulnerables a la manipulación de recompensas (reward hacking), y los métodos de autoevaluación sufren de sensibilidad a los prompts y sesgos. En este trabajo, proponemos el *rango estable* (stable rank), una señal de calidad intrínseca y libre de anotaciones derivada de las representaciones del modelo. El rango estable mide la dimensionalidad efectiva de los estados ocultos calculando la relación entre la varianza total y la varianza en la dirección dominante, capturando la calidad a través de cómo se distribuye la información entre las dimensiones de representación. Empíricamente, el rango estable alcanza un 84.04% de precisión en RewardBench y mejora la precisión en tareas en un promedio de 11.3 puntos porcentuales sobre la decodificación voraz mediante muestreo Best-of-N. Aprovechando esta idea, presentamos la Optimización de Políticas Relativas por Grupos de Rango Estable (SR-GRPO), que utiliza el rango estable como señal de recompensa para el aprendizaje por refuerzo. Sin supervisión externa, SR-GRPO mejora el modelo Qwen2.5-1.5B-Instruct en un 10% en STEM y en un 19% en razonamiento matemático, superando tanto a los modelos de recompensa aprendidos como a las líneas base de autoevaluación. Nuestros hallazgos demuestran que las señales de calidad pueden extraerse de la geometría interna del modelo, ofreciendo un camino hacia una alineación escalable sin supervisión externa.
English
Aligning Large Language Models (LLMs) with human preferences typically relies on external supervision, which faces critical limitations: human annotations are scarce and subjective, reward models are vulnerable to reward hacking, and self-evaluation methods suffer from prompt sensitivity and biases. In this work, we propose stable rank, an intrinsic, annotation-free quality signal derived from model representations. Stable rank measures the effective dimensionality of hidden states by computing the ratio of total variance to dominant-direction variance, capturing quality through how information distributes across representation dimensions. Empirically, stable rank achieves 84.04% accuracy on RewardBench and improves task accuracy by an average of 11.3 percentage points over greedy decoding via Best-of-N sampling. Leveraging this insight, we introduce Stable Rank Group Relative Policy Optimization (SR-GRPO), which uses stable rank as a reward signal for reinforcement learning. Without external supervision, SR-GRPO improves Qwen2.5-1.5B-Instruct by 10% on STEM and 19% on mathematical reasoning, outperforming both learned reward models and self-evaluation baselines. Our findings demonstrate that quality signals can be extracted from internal model geometry, offering a path toward scalable alignment without external supervision.
PDF51December 5, 2025