ChatPaper.aiChatPaper

SR-GRPO: Стабильный ранг как внутренняя геометрическая награда для согласования больших языковых моделей

SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment

December 2, 2025
Авторы: Yixuan Tang, Yi Yang
cs.AI

Аннотация

Выравнивание больших языковых моделей (LLM) с человеческими предпочтениями обычно опирается на внешний контроль, что сопряжено с серьезными ограничениями: человеческие аннотации稀缺ны и субъективны, модели вознаграждения уязвимы к взлому, а методы самооценки страдают от чувствительности к промптам и смещений. В данной работе мы предлагаем стабильный ранг — внутренний, не требующий аннотаций сигнал качества, извлекаемый из репрезентаций модели. Стабильный ранг измеряет эффективную размерность скрытых состояний, вычисляя отношение общей дисперсии к дисперсии в доминирующем направлении, фиксируя качество через то, как информация распределяется по размерностям представления. Эмпирически стабильный ранг достигает точности 84.04% на RewardBench и улучшает точность выполнения задач в среднем на 11.3 процентных пункта по сравнению с жадным декодированием через Best-of-N семплирование. Используя это наблюдение, мы представляем Stable Rank Group Relative Policy Optimization (SR-GRPO), который использует стабильный ранг в качестве сигнала вознаграждения для обучения с подкреплением. Без внешнего контроля SR-GRPO улучшает показатели модели Qwen2.5-1.5B-Instruct на 10% в STEM-задачах и на 19% в математических рассуждениях, превосходя как обученные модели вознаграждения, так и базовые методы самооценки. Наши результаты демонстрируют, что сигналы качества можно извлекать из внутренней геометрии модели, открывая путь к масштабируемому выравниванию без внешнего контроля.
English
Aligning Large Language Models (LLMs) with human preferences typically relies on external supervision, which faces critical limitations: human annotations are scarce and subjective, reward models are vulnerable to reward hacking, and self-evaluation methods suffer from prompt sensitivity and biases. In this work, we propose stable rank, an intrinsic, annotation-free quality signal derived from model representations. Stable rank measures the effective dimensionality of hidden states by computing the ratio of total variance to dominant-direction variance, capturing quality through how information distributes across representation dimensions. Empirically, stable rank achieves 84.04% accuracy on RewardBench and improves task accuracy by an average of 11.3 percentage points over greedy decoding via Best-of-N sampling. Leveraging this insight, we introduce Stable Rank Group Relative Policy Optimization (SR-GRPO), which uses stable rank as a reward signal for reinforcement learning. Without external supervision, SR-GRPO improves Qwen2.5-1.5B-Instruct by 10% on STEM and 19% on mathematical reasoning, outperforming both learned reward models and self-evaluation baselines. Our findings demonstrate that quality signals can be extracted from internal model geometry, offering a path toward scalable alignment without external supervision.
PDF51December 5, 2025