Think-RM: Обеспечение долгосрочного рассуждения в генеративных моделях вознаграждения
Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models
May 22, 2025
Авторы: Ilgee Hong, Changlong Yu, Liang Qiu, Weixiang Yan, Zhenghao Xu, Haoming Jiang, Qingru Zhang, Qin Lu, Xin Liu, Chao Zhang, Tuo Zhao
cs.AI
Аннотация
Обучение с подкреплением на основе человеческой обратной связи (RLHF) стало мощной парадигмой пост-обучения для согласования крупных языковых моделей с предпочтениями человека. Основная проблема в RLHF заключается в построении точных сигналов вознаграждения, где традиционные модели вознаграждения Брэдли-Терри (BT RMs) часто страдают от чувствительности к объему и охвату данных, а также уязвимости к взлому вознаграждений. Генеративные модели вознаграждения (GenRMs) предлагают более устойчивую альтернативу, генерируя цепочки рассуждений (CoT) с последующим финальным вознаграждением. Однако существующие GenRMs полагаются на поверхностное, вертикально масштабируемое рассуждение, что ограничивает их способность справляться с тонкими или сложными (например, требующими глубокого анализа) задачами. Более того, их попарные выходы предпочтений несовместимы со стандартными алгоритмами RLHF, которые требуют точечных сигналов вознаграждения. В данной работе мы представляем Think-RM, фреймворк обучения, который позволяет GenRMs осуществлять долгосрочное рассуждение, моделируя внутренний процесс мышления. Вместо создания структурированных, внешне предоставленных рационалов, Think-RM генерирует гибкие, самонаправленные следы рассуждений, поддерживающие такие продвинутые возможности, как саморефлексия, гипотетическое и дивергентное рассуждение. Для развития этих способностей мы сначала разогреваем модели с помощью контролируемого тонкого обучения (SFT) на данных с длинными цепочками рассуждений. Затем мы дополнительно улучшаем долгосрочные способности модели с помощью обучения с подкреплением на основе правил (RL). Кроме того, мы предлагаем новый конвейер попарного RLHF, который напрямую оптимизирует политики, используя попарные предпочтения вознаграждений, устраняя необходимость преобразования в точечные вознаграждения и позволяя более эффективно использовать выходы Think-RM. Эксперименты показывают, что Think-RM достигает передовых результатов на RM-Bench, превосходя как BT RM, так и вертикально масштабируемые GenRM на 8%. В сочетании с нашим попарным конвейером RLHF он демонстрирует превосходную производительность конечной политики по сравнению с традиционными подходами.
English
Reinforcement learning from human feedback (RLHF) has become a powerful
post-training paradigm for aligning large language models with human
preferences. A core challenge in RLHF is constructing accurate reward signals,
where the conventional Bradley-Terry reward models (BT RMs) often suffer from
sensitivity to data size and coverage, as well as vulnerability to reward
hacking. Generative reward models (GenRMs) offer a more robust alternative by
generating chain-of-thought (CoT) rationales followed by a final reward.
However, existing GenRMs rely on shallow, vertically scaled reasoning, limiting
their capacity to handle nuanced or complex (e.g., reasoning-intensive) tasks.
Moreover, their pairwise preference outputs are incompatible with standard RLHF
algorithms that require pointwise reward signals. In this work, we introduce
Think-RM, a training framework that enables long-horizon reasoning in GenRMs by
modeling an internal thinking process. Rather than producing structured,
externally provided rationales, Think-RM generates flexible, self-guided
reasoning traces that support advanced capabilities such as self-reflection,
hypothetical reasoning, and divergent reasoning. To elicit these reasoning
abilities, we first warm-up the models by supervised fine-tuning (SFT) over
long CoT data. We then further improve the model's long-horizon abilities by
rule-based reinforcement learning (RL). In addition, we propose a novel
pairwise RLHF pipeline that directly optimizes policies using pairwise
preference rewards, eliminating the need for pointwise reward conversion and
enabling more effective use of Think-RM outputs. Experiments show that Think-RM
achieves state-of-the-art results on RM-Bench, outperforming both BT RM and
vertically scaled GenRM by 8%. When combined with our pairwise RLHF pipeline,
it demonstrates superior end-policy performance compared to traditional
approaches.Summary
AI-Generated Summary