Альтернирующее обучение с подкреплением для моделирования вознаграждения на основе рубрик при пост-обучении больших языковых моделей с непроверяемыми результатами

Аннотация

Стандартные модели вознаграждения обычно предсказывают скалярные оценки, которые не способны уловить многогранный характер качества ответов в неверифицируемых областях, таких как творческое письмо или выполнение открытых инструкций. Для преодоления этого ограничения мы предлагаем Rubric-ARM — фреймворк, который совместно оптимизирует генератор рубрик и оценщика с использованием обучения с подкреплением на основе обратной связи в виде предпочтений. В отличие от существующих методов, опирающихся на статические рубрики или разрозненные конвейеры обучения, наш подход трактует генерацию рубрик как латентное действие, изучаемое для максимизации точности оценивания. Мы представляем стратегию чередующейся оптимизации для смягчения нестационарности одновременных обновлений, подкрепляя её теоретическим анализом, который демонстрирует, как такой график снижает дисперсию градиента в процессе обучения. Многочисленные эксперименты показывают, что Rubric-ARM достигает наилучших результатов среди базовых методов на нескольких бенчмарках и значительно улучшает согласование политики на последующих этапах как в оффлайн-, так и в онлайн-режимах обучения с подкреплением.

English

Standard reward models typically predict scalar scores that fail to capture the multifaceted nature of response quality in non-verifiable domains, such as creative writing or open-ended instruction following. To address this limitation, we propose Rubric-ARM, a framework that jointly optimizes a rubric generator and a judge using reinforcement learning from preference feedback. Unlike existing methods that rely on static rubrics or disjoint training pipelines, our approach treats rubric generation as a latent action learned to maximize judgment accuracy. We introduce an alternating optimization strategy to mitigate the non-stationarity of simultaneous updates, providing theoretical analysis that demonstrates how this schedule reduces gradient variance during training. Extensive experiments show that Rubric-ARM achieves state-of-the-art performance among baselines on multiple benchmarks and significantly improves downstream policy alignment in both offline and online reinforcement learning settings.

Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training

Аннотация

Support